• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作热门-AI社区
AI 对话

腾讯联合智源发布升级版长文本理解基准测试模型—LongBench v2

腾讯联合智源发布升级版长文本理解基准测试模型—LongBench v2
AI TOP100
2024-12-20 16:56:01

LongBench v2模型地址

在2024年12月19日的一场盛大发布会上,腾讯携手智源研究院,共同揭晓了LongBench v2——这一专为大型语言模型(LLMs)量身定制的长文本理解基准测试平台。LongBench v2的问世,标志着我们在探索长文本多任务深度理解与推理能力的道路上迈出了坚实的一步,直击当前长文本大语言模型在实际应用中面临的核心挑战。

LongBench v2以其卓越的性能和独特的设计脱颖而出,它不仅能够处理长达8k至2M词的超长文本,更包含了503道精心设计的四选一选择题,这些题目难度颇高,即便是人类专家在15分钟内也只能达到53.7%的平均准确率。这一基准测试全面覆盖了单文档问答、多文档问答、长文本语境学习等六大任务类别,确保了其在多种应用场景下的广泛适用性。

LongBench v2以其卓越的性能和独特的设计脱颖而出

在构建LongBench v2的过程中,我们尤为注重评估的严谨性和可靠性。所有问题均采用了多项选择题的形式,并经历了严格的人工标注和审核流程。我们特别邀请了来自顶尖学府的标注员参与,以确保问题的高质量和高难度。同时,通过对原始Bradley-Terry统计算法进行改进,并引入控制变量,我们成功降低了混淆因素的影响,使得模型排名更加科学、精准。

在评估环节,我们对10个开源LLMs和6个闭源LLMs进行了全面测试。结果显示,引入控制变量后,模型的表现得到了显著提升。特别是GPT-4o模型,在引入更多推理步骤后,其在多文档问答和长文本语境学习等任务上展现出了非凡的实力,充分彰显了推理能力对于提升模型性能的重要性。

LongBench v2以其卓越的性能和独特的设计脱颖而出1

LongBench v2的推出,不仅为大语言模型的评估提供了一把崭新的“尺子”,更为未来的研究指明了方向。它强调了提升模型自身理解和推理能力的紧迫性,为AI技术的发展注入了新的活力。智源研究院与腾讯的强强联手,无疑将在AI技术领域掀起一股新的浪潮。我们期待LongBench v2能够成为推动长文本理解和推理技术进步的重要力量,为AI的未来发展贡献更多智慧与力量。

模型地址:https://longbench2.github.io

论文地址:https://arxiv.org/abs/2412.15204

数据与代码地址:https://github.com/THUDM/LongBench

更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • Codex + HyperFrames正在吃掉剪辑行业 ,AI重构剪辑逻辑,新手也能实现高效出片

  • 字节跳动Doubao-Seed-2.0-lite发布:首款全模态理解模型登场

  • 月之暗面Kimi再获20亿美元融资:半年四轮、估值翻四倍、累计融资超376亿元

  • AI新势能漫剧正当红-2026AI短剧/漫剧生态发展交流会

  • 豆包四大版本权益全解析:付费时代,AI工具如何从“免费玩乐”转向“价值变现”

热点资讯

商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果

9天前
商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果

WorkBuddy深度集成腾讯文档:业内首个与主流文档产品打通的AI办公智能体

9天前
WorkBuddy深度集成腾讯文档:业内首个与主流文档产品打通的AI办公智能体

每日AI资讯-2026年5月07日

1天前
每日AI资讯-2026年5月07日

effie x 可灵AI2026 AIGC广告创作大赛邀请您共创

8天前
effie x 可灵AI2026 AIGC广告创作大赛邀请您共创

GPT Image 2登顶SuperCLUE文生图榜首:汉字生成93.07分,超越谷歌Nano Banana 2

9天前
GPT Image 2登顶SuperCLUE文生图榜首:汉字生成93.07分,超越谷歌Nano Banana 2
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有