Meta Llama4 真香？Maverick 和 Scout 评测翻车，大厂也玩套路？-AITOP100,AI资讯

最近啊，有一项新的独立评估结果出来了，把Meta新推出的Llama4模型推到了风口浪尖上。这Llama4模型里有两款，一个叫Maverick，另一个叫Scout。在标准测试里，它们的表现那叫一个亮眼，可一到复杂的长上下文任务，就露怯了。

按照人工智能分析的“智能指数”来看，Maverick拿到了49分，比Claude3.7Sonnet（具体多少分没公布）强，但还是比不过DeepseekV3 0324（人家拿了53分）。Scout呢，得了36分，和GPT - 4o - mini差不多，比Claude3.5Sonnet和Mistral Small3.1强一些。这两款模型在推理、编码和数学任务方面，表现都挺稳，没啥明显的短板。

Maverick的架构效率特别让人吃惊。它的活动参数只有Deepseek V3的170亿（Deepseek V3是370亿），总参数占Deepseek V3的60%（Maverick是4020亿，Deepseek V3是6710亿）。而且啊，它不光能处理文本，还能处理图像呢。价格方面，Maverick每百万输入/输出代币均价是0.24美元/0.77美元，Scout是0.15美元/0.4美元，比Deepseek V3便宜，甚至比GPT - 4o便宜10倍，成了最实惠的AI模型之一。

不过呢，Llama4一发布就引起了争议。LMArena基准测试显示，Maverick在Meta推荐的“实验性聊天版本”下能排到第二，可一旦启用“风格控制”，就掉到第五了。这就说明啊，它靠的可能是格式优化，而不是纯粹的内容质量。测试人员还质疑Meta的基准可靠性，说它和其他平台的表现差别太大了。Meta承认是优化了人类评估体验，但坚决否认训练数据作弊。

长上下文任务可就成了Llama4的软肋了。Fiction.live测试表明，Maverick在处理128，000个令牌的时候，准确率只有28.1%，Scout更低，才15.6%，和Gemini2.5Pro的90.6%比起来，差得可不是一星半点。虽说Meta宣称Maverick支持100万令牌、Scout支持1000万令牌的上下文窗口，但实际性能根本没达到这个水平。研究还发现，超大的上下文窗口其实收益有限，128K以下的更实用。

Meta生成AI负责人Ahmad Al - Dahle回应说，早期表现不一致是因为实施出了问题，不是模型本身有缺陷。他否认了测试作弊的指控，还说部署优化正在进行，预计没几天就能稳定下来。咱就拭目以待，看看Llama4后面能不能打个漂亮的翻身仗吧。

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集