Anthropic说"4.7不是最强版本",但它解决了AI最烦人的问题
Anthropic最近节奏确实快,几乎每隔一天就有新动作落地。但4月17日发布的Claude Opus 4.7,有一点不太一样。
Anthropic在公告里直接说了句大实话:“这并非我们最强大的模型。”
那个更强的Mythos Preview——按他们的说法,还在打磨中,这次不上。
这事放到别的公司,可能觉得是故意放低姿态吊胃口。但看完成绩单之后,我觉得Anthropic这次的判断是对的:4.7虽然不是"最强大",但它解决了一个比"聪明"更重要的问题——靠谱。
模型地址:Claude官网

先看分数:编程能力大涨11个点
在硬核编程基准测试SWE-bench Pro上,Opus 4.7从上代53.4%直接跳到64.3%,单代涨幅近11个百分点。
这个数字横向对比是什么水平?GPT-5.4是57.7%,Gemini3.1 Pro是54.2%。4.7把这两个都超了。
视觉推理基准CharXiv从69.1%跳到82.1%,背后是一个关键升级:新增了2576像素长边识别能力,图片清晰度比前代提升3倍以上。
工具调用评测MCP-Atlas跑出77.3%,法律AI平台Harvey的BigLaw基准拿下90.9%。
不过有一个指标反跌了:**BrowseComp(Agentic搜索评测)**从83.7%小幅回落至79.3%,被GPT-5.4和Gemini反超。
Anthropic对此的解释很有意思——这不是能力下滑,而是4.7"不肯乱编答案"的性格使然,遇到缺失信息宁可报错也不凑数。这个回答挺Anthropic的。

它真正解决的是什么问题?
分数之外,更值得关注的是它行为模式的变化。
Replit负责人测试后的反馈是:“它会在技术讨论中反驳我,帮我做出更好的决定,真的像一个更好的同事。”
数据科学平台Hex发现了一个很关键的改进:4.7遇到缺失数据会直接报错,而不像前代那样塞一个"看似合理但完全错误"的备选值。
这个区别有多大?举个例子:
前代遇到不确定的数据,可能会给你填一个"根据行业经验推算"的数字,听起来挺专业,其实是你自己都没意识到的错误。4.7遇到同样的情况,会直接告诉你"这里数据不全,我没法给你准确答案"。
对于需要用AI做严肃决策的人来说,"不知道就说不知道"这件事,某种程度上比"给个答案"更重要。
Notion团队的测试还发现了一个新行为:4.7在动手写系统级代码之前,会先自己做数学证明。这意味着它在执行任务之前会先验证方案的可行性,而不是上来就写,写完再改。
代价是什么?
当然,变强是有代价的。
4.7引入了全新分词器,同样的文本会产生比原来多1到1.35倍的Token。加之它在复杂任务中倾向于"多想一会儿",实际Token消耗几乎必然上升。
为此,Anthropic新增了xhigh超高级别思考强度,Claude Code已将所有套餐默认拉至该档位。同时推出了深度审查指令ultrareview、面向Max用户的Auto Mode扩展,以及帮助开发者管控Token支出的"任务预算"功能公测版。
说白了:你花更多的钱,但它更靠谱了。值不值,看你的需求。
那个"更强的Mythos"到底有多强?
4.17发布的同一天,Anthropic还透露了一个信息:Mythos Preview本月刚以"Project Glasswing"的名义小范围开放给企业,用于网络安全研究。
原因是:能力过强,安全评估尚未完成,暂不公开发布。
这大概是Anthropic式的"炫耀"——它不是告诉你"我们的新模型有多强",而是告诉你"强到我们自己都觉得放出来有风险"。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










