• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

Meta“特供版”AI模型引争议:刷榜背后的猫腻?

Meta“特供版”AI模型引争议:刷榜背后的猫腻?
AI TOP100
2025-04-07 09:53:47

Meta新AI模型 Maverick 被指“特供”,冲榜有内幕?

Meta 最近发布了他们的新 AI 模型 Maverick,号称在 LM Arena 评测中拿了第二名。这个 LM Arena 就像个擂台,让不同 AI 模型比试,人类裁判打分,谁赢了就往上排。结果没过多久,就有 AI 研究人员跳出来爆料说,Meta 放到 LM Arena 上的 Maverick 版本,和大家平时用的版本根本不一样!

Meta

Meta 官方承认“特供”版本,引发质疑

Meta 自己也承认,LM Arena 上的 Maverick 只是个“实验性聊天版本”。而且 Llama 官方网站上的图表也显示,他们在 LM Arena 测试用的是“针对对话性进行了优化的 Llama4Maverick”。这下大家更懵了,这不就是承认搞特殊了吗?

研究人员爆料:大量表情符号,回答又臭又长

AI 研究人员在 X (推特) 上吐槽说,公开下载的 Maverick 和 LM Arena 上的简直是两个东西。LM Arena 版本的特点是特别喜欢用表情符号,而且回答问题啰啰嗦嗦的,标准版本可没这毛病。研究员 Nathan Lambert 就发帖调侃说:“Llama4 肯定是被煮熟了,哈哈,这是什么鬼地方”。

“特供版”背后的问题:误导开发者,破坏公平

这种为了特定评测而专门定制模型,然后发布一个“原始”版本的做法,问题可大了。首先,这会让开发者很难准确预测模型在实际应用中的表现。你给人家用的和自己偷偷改过的,那肯定不一样啊!其次,这种做法也被认为具有误导性,毕竟基准测试的目的是公平公正地展示模型在各种任务中的优缺点。

AI 评测透明度成焦点

虽然 LM Arena 并不是衡量 AI 模型性能的唯一标准,但 AI 公司一般不会公开承认为了刷分而优化模型。Meta 这次算是打破了“潜规则”,引发了大家对 AI 模型评测透明度的广泛讨论。以后咱们评测 AI 模型,是不是得擦亮眼睛,看看是不是“特供版”?

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 终端里的AI编程新王:xAI Grok Build正式开测,马斯克要把开发者彻底解放

  • 1.5万亿参数硬核登场!xAI Grok V9‑Medium训练完成,编程AI赛道迎来重量级新选手

  • CapCut与Gemini合作推出深度集成:AI创作工具实现智能互联

  • 🚀 速度狂飙4倍 + 免费开放!谷歌Gemini 3.5 Flash重塑大模型行业格局

  • 暂未公布Gemini 4.0!Google I/O 2026重磅转向Agent时代,Omni世界模型重构AI格局

热点资讯

淘宝视频无限帧 V2.0 AI创意内容挑战赛火热进行中....

5天前
淘宝视频无限帧 V2.0 AI创意内容挑战赛火热进行中....

腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代

5天前
 腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代

每日AI资讯-2026年5月18日

9天前
每日AI资讯-2026年5月18日

炸裂!华为海思"滔定律"横空出世:用时间微缩破局摩尔极限,为AI算力按下加速键

1天前
炸裂!华为海思"滔定律"横空出世:用时间微缩破局摩尔极限,为AI算力按下加速键

太空追梦·成就未来|喜之郎首届全国AIGC创想大赛

1天前
太空追梦·成就未来|喜之郎首届全国AIGC创想大赛
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有