Meta新AI模型 Maverick 被指“特供”,冲榜有内幕?
Meta 最近发布了他们的新 AI 模型 Maverick,号称在 LM Arena 评测中拿了第二名。这个 LM Arena 就像个擂台,让不同 AI 模型比试,人类裁判打分,谁赢了就往上排。结果没过多久,就有 AI 研究人员跳出来爆料说,Meta 放到 LM Arena 上的 Maverick 版本,和大家平时用的版本根本不一样!
Meta 官方承认“特供”版本,引发质疑
Meta 自己也承认,LM Arena 上的 Maverick 只是个“实验性聊天版本”。而且 Llama 官方网站上的图表也显示,他们在 LM Arena 测试用的是“针对对话性进行了优化的 Llama4Maverick”。这下大家更懵了,这不就是承认搞特殊了吗?
研究人员爆料:大量表情符号,回答又臭又长
AI 研究人员在 X (推特) 上吐槽说,公开下载的 Maverick 和 LM Arena 上的简直是两个东西。LM Arena 版本的特点是特别喜欢用表情符号,而且回答问题啰啰嗦嗦的,标准版本可没这毛病。研究员 Nathan Lambert 就发帖调侃说:“Llama4 肯定是被煮熟了,哈哈,这是什么鬼地方”。
“特供版”背后的问题:误导开发者,破坏公平
这种为了特定评测而专门定制模型,然后发布一个“原始”版本的做法,问题可大了。首先,这会让开发者很难准确预测模型在实际应用中的表现。你给人家用的和自己偷偷改过的,那肯定不一样啊!其次,这种做法也被认为具有误导性,毕竟基准测试的目的是公平公正地展示模型在各种任务中的优缺点。
AI 评测透明度成焦点
虽然 LM Arena 并不是衡量 AI 模型性能的唯一标准,但 AI 公司一般不会公开承认为了刷分而优化模型。Meta 这次算是打破了“潜规则”,引发了大家对 AI 模型评测透明度的广泛讨论。以后咱们评测 AI 模型,是不是得擦亮眼睛,看看是不是“特供版”?