• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

Meta Llama4 真香?Maverick 和 Scout 评测翻车,大厂也玩套路?

Meta Llama4 真香?Maverick 和 Scout 评测翻车,大厂也玩套路?
AI TOP100
2025-04-08 17:22:49

最近啊,有一项新的独立评估结果出来了,把Meta新推出的Llama4模型推到了风口浪尖上。这Llama4模型里有两款,一个叫Maverick,另一个叫Scout。在标准测试里,它们的表现那叫一个亮眼,可一到复杂的长上下文任务,就露怯了。

按照人工智能分析的“智能指数”来看,Maverick拿到了49分,比Claude3.7Sonnet(具体多少分没公布)强,但还是比不过DeepseekV3 0324(人家拿了53分)。Scout呢,得了36分,和GPT - 4o - mini差不多,比Claude3.5Sonnet和Mistral Small3.1强一些。这两款模型在推理、编码和数学任务方面,表现都挺稳,没啥明显的短板。

Llama4模型

Maverick的架构效率特别让人吃惊。它的活动参数只有Deepseek V3的170亿(Deepseek V3是370亿),总参数占Deepseek V3的60%(Maverick是4020亿,Deepseek V3是6710亿)。而且啊,它不光能处理文本,还能处理图像呢。价格方面,Maverick每百万输入/输出代币均价是0.24美元/0.77美元,Scout是0.15美元/0.4美元,比Deepseek V3便宜,甚至比GPT - 4o便宜10倍,成了最实惠的AI模型之一。

不过呢,Llama4一发布就引起了争议。LMArena基准测试显示,Maverick在Meta推荐的“实验性聊天版本”下能排到第二,可一旦启用“风格控制”,就掉到第五了。这就说明啊,它靠的可能是格式优化,而不是纯粹的内容质量。测试人员还质疑Meta的基准可靠性,说它和其他平台的表现差别太大了。Meta承认是优化了人类评估体验,但坚决否认训练数据作弊。

Llama4模型

长上下文任务可就成了Llama4的软肋了。Fiction.live测试表明,Maverick在处理128,000个令牌的时候,准确率只有28.1%,Scout更低,才15.6%,和Gemini2.5Pro的90.6%比起来,差得可不是一星半点。虽说Meta宣称Maverick支持100万令牌、Scout支持1000万令牌的上下文窗口,但实际性能根本没达到这个水平。研究还发现,超大的上下文窗口其实收益有限,128K以下的更实用。

Meta生成AI负责人Ahmad Al - Dahle回应说,早期表现不一致是因为实施出了问题,不是模型本身有缺陷。他否认了测试作弊的指控,还说部署优化正在进行,预计没几天就能稳定下来。咱就拭目以待,看看Llama4后面能不能打个漂亮的翻身仗吧。

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • Llama
相关资讯
  • 细思极恐!Meta竟然用色情片训练AI,背后隐藏的人性黑洞让人不寒而栗

  • 2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

  • Genie 3革命性突破:从2D游戏到3D世界,Google的AGI世界模型如何重塑未来?

  • Gamma AI:从"模板选择"到"内容驱动"的演示工具范式突破

  • AI行业震荡周:DeepSeek V3.1颠覆格局,人才缺口破500万大关 | 2025年8月第三周全景报告

热点资讯

即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

1天前
即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

4天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

1天前
可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

3天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

4天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有