智源FlagEval大模型评测榜单发布-AITOP100,AI资讯

FlagEval 大语言模型评测

什么是FlagEval 大语言模型评测？

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

评测体系

FlagEval 大语言模型评测体系当前包含 6 大评测任务，近30个评测数据集，超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等，FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。

FlagEval 大语言模型评测---11月排行榜

本期评测新增近期开源的 ChatGLM3-6B、Yi-34B/6B、Skywork、LingoWhale-8B等开源模型，另外智谱&清华KEG团队也将闭源的 ChatGLM2-12B 提交至 FlagEval 平台进行评测，这也是FlagEval平台首次发布闭源模型评测结果，希望对大模型爱好者和应用开发者有提供更多参考价值。

FlagEval大语言评测官网：

更多详细评测结果见：https://flageval.baai.ac.cn/

Base 模型榜单：

• Yi-34B-Base、Yi-34-Base-200K 模型超越 Aquila2-34B，排名第一，其英文能力突出、优于中文能力。

• ChatGLM3-6B-Base、ChatGLM2-12B-Base 表现亮眼，遥遥领先其他同参数量级模型。

• Skywork-13B-Base、LingoWhale-8B 亦有不错表现。

SFT 模型榜单：

• ChatGLM2-12B-sft、ChatGLM3-6B-sft 均达到了同参数级对话模型的最优水平。

FlagEval 团队在评估 Base 模型时发现了几个新问题。与对话模型不同，Base 模型不能通过对话形式主观评估其各项能力，但应具备优秀的续写能力，即通过续写文本回答输入问题。
目前，Base 模型的评估主要依赖短文本生成结果进行客观评估，这无法全面反映 Base 模型在长序列生成中的表现。因此，我们对评估分数较高的 Base 模型进行了长序列生成的抽查。抽查发现，部分 Base 模型在续写过程中存在重复生成、无法自主结束输出以及跨语言续写等问题。这些问题可能对后续的 SFT 模型能力产生负面影响，但具体影响范围和程度尚需进一步研究。未来，我们将增设针对 Base 模型的长文本续写能力评估方法。

具体问题示例如下：

注：FlagEval 平台参考HELM工作以 5-Shot的形式进行评测。