• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

智源FlagEval大模型评测榜单发布

智源FlagEval大模型评测榜单发布
AI TOP100
2023-11-20 13:33:06

FlagEval 大语言模型评测

什么是FlagEval 大语言模型评测?

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

评测体系

FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

FlagEval 大语言模型评测---11月排行榜

本期评测新增近期开源的 ChatGLM3-6B、Yi-34B/6B、Skywork、LingoWhale-8B等开源模型,另外智谱&清华KEG团队也将闭源的 ChatGLM2-12B 提交至 FlagEval 平台进行评测,这也是FlagEval平台首次发布闭源模型评测结果,希望对大模型爱好者和应用开发者有提供更多参考价值。

FlagEval大语言评测官网:

更多详细评测结果见:https://flageval.baai.ac.cn/

Base 模型榜单:

• Yi-34B-Base、Yi-34-Base-200K 模型超越 Aquila2-34B,排名第一,其英文能力突出、优于中文能力。

• ChatGLM3-6B-Base、ChatGLM2-12B-Base 表现亮眼,遥遥领先其他同参数量级模型。

• Skywork-13B-Base、LingoWhale-8B 亦有不错表现。

SFT 模型榜单:

• ChatGLM2-12B-sft、ChatGLM3-6B-sft 均达到了同参数级对话模型的最优水平。

FlagEval 团队在评估 Base 模型时发现了几个新问题。与对话模型不同,Base 模型不能通过对话形式主观评估其各项能力,但应具备优秀的续写能力,即通过续写文本回答输入问题。
目前,Base 模型的评估主要依赖短文本生成结果进行客观评估,这无法全面反映 Base 模型在长序列生成中的表现。因此,我们对评估分数较高的 Base 模型进行了长序列生成的抽查。抽查发现,部分 Base 模型在续写过程中存在重复生成、无法自主结束输出以及跨语言续写等问题。这些问题可能对后续的 SFT 模型能力产生负面影响,但具体影响范围和程度尚需进一步研究。未来,我们将增设针对 Base 模型的长文本续写能力评估方法。

具体问题示例如下:

注:FlagEval 平台参考HELM工作以 5-Shot的形式进行评测。

1、Base基座模型榜单

2、SFT 有监督微调模型 榜单#在线ai绘图   #AI写作     #AI活动   #AI社区

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 2025年10月08日深度解析:OpenAI Sora升级版如何重塑AI视频生成规则?

  • 2025年国庆期间中国AI应用热潮:智慧出行与文旅的全面爆发

  • AI界"国庆大戏":OpenAI引爆视频革命,AMD千亿合约震撼全球!

  • OpenAI开发者日重磅发布:推出Apps SDK与AgentKit,构建自主AI代理生态

  • 国庆长假AI圈却炸了!Sora 2一周爆火全记录:16万下载登顶榜首背后的技术革命与全民狂欢

热点资讯

2025年国庆期间中国AI应用热潮:智慧出行与文旅的全面爆发

1天前
2025年国庆期间中国AI应用热潮:智慧出行与文旅的全面爆发

Sora 2上线:用“Cameo”功能,OpenAI想让视频生成成为新的社交方式

7天前
Sora 2上线:用“Cameo”功能,OpenAI想让视频生成成为新的社交方式

AI界"国庆大戏":OpenAI引爆视频革命,AMD千亿合约震撼全球!

1天前
AI界"国庆大戏":OpenAI引爆视频革命,AMD千亿合约震撼全球!

国庆长假AI圈却炸了!Sora 2一周爆火全记录:16万下载登顶榜首背后的技术革命与全民狂欢

1天前
国庆长假AI圈却炸了!Sora 2一周爆火全记录:16万下载登顶榜首背后的技术革命与全民狂欢

重磅!DeepSeek-V3.2-Exp正式上线,训练推理效率飙升,API价格腰斩

8天前
重磅!DeepSeek-V3.2-Exp正式上线,训练推理效率飙升,API价格腰斩
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有