• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

智源FlagEval大模型评测榜单发布

智源FlagEval大模型评测榜单发布
AI TOP100
2023-11-20 13:33:06

FlagEval 大语言模型评测

什么是FlagEval 大语言模型评测?

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

评测体系

FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

FlagEval 大语言模型评测---11月排行榜

本期评测新增近期开源的 ChatGLM3-6B、Yi-34B/6B、Skywork、LingoWhale-8B等开源模型,另外智谱&清华KEG团队也将闭源的 ChatGLM2-12B 提交至 FlagEval 平台进行评测,这也是FlagEval平台首次发布闭源模型评测结果,希望对大模型爱好者和应用开发者有提供更多参考价值。

FlagEval大语言评测官网:

更多详细评测结果见:https://flageval.baai.ac.cn/

Base 模型榜单:

• Yi-34B-Base、Yi-34-Base-200K 模型超越 Aquila2-34B,排名第一,其英文能力突出、优于中文能力。

• ChatGLM3-6B-Base、ChatGLM2-12B-Base 表现亮眼,遥遥领先其他同参数量级模型。

• Skywork-13B-Base、LingoWhale-8B 亦有不错表现。

SFT 模型榜单:

• ChatGLM2-12B-sft、ChatGLM3-6B-sft 均达到了同参数级对话模型的最优水平。

FlagEval 团队在评估 Base 模型时发现了几个新问题。与对话模型不同,Base 模型不能通过对话形式主观评估其各项能力,但应具备优秀的续写能力,即通过续写文本回答输入问题。
目前,Base 模型的评估主要依赖短文本生成结果进行客观评估,这无法全面反映 Base 模型在长序列生成中的表现。因此,我们对评估分数较高的 Base 模型进行了长序列生成的抽查。抽查发现,部分 Base 模型在续写过程中存在重复生成、无法自主结束输出以及跨语言续写等问题。这些问题可能对后续的 SFT 模型能力产生负面影响,但具体影响范围和程度尚需进一步研究。未来,我们将增设针对 Base 模型的长文本续写能力评估方法。

具体问题示例如下:

注:FlagEval 平台参考HELM工作以 5-Shot的形式进行评测。

1、Base基座模型榜单

2、SFT 有监督微调模型 榜单#在线ai绘图   #AI写作     #AI活动   #AI社区

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 细思极恐!Meta竟然用色情片训练AI,背后隐藏的人性黑洞让人不寒而栗

  • 每日AI资讯-2025年08月22日

  • AutoClip:开源免费AI视频剪辑工具完全使用指南 - 自动化视频处理的革命性解决方案

  • Kimi K2 Turbo再突破!输出速度飙至每秒100 Tokens,效率翻倍还享5折优惠

  • ToonComposer:AI动画制作工具完全指南 - 从草图到专业动画的智能转换

热点资讯

即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

1天前
即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

4天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

1天前
可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

3天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

4天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有