Claude Opus 4.7正式发布：Anthropic这次不拼"最聪明"，改拼"最靠谱"-AITOP100,AI资讯

Anthropic说"4.7不是最强版本"，但它解决了AI最烦人的问题

Anthropic最近节奏确实快，几乎每隔一天就有新动作落地。但4月17日发布的Claude Opus 4.7，有一点不太一样。

Anthropic在公告里直接说了句大实话：“这并非我们最强大的模型。”

那个更强的Mythos Preview——按他们的说法，还在打磨中，这次不上。

这事放到别的公司，可能觉得是故意放低姿态吊胃口。但看完成绩单之后，我觉得Anthropic这次的判断是对的：4.7虽然不是"最强大"，但它解决了一个比"聪明"更重要的问题——靠谱。

模型地址：Claude官网

Claude Opus 4.7

先看分数：编程能力大涨11个点

在硬核编程基准测试SWE-bench Pro上，Opus 4.7从上代53.4%直接跳到64.3%，单代涨幅近11个百分点。

这个数字横向对比是什么水平？GPT-5.4是57.7%，Gemini3.1 Pro是54.2%。4.7把这两个都超了。

视觉推理基准CharXiv从69.1%跳到82.1%，背后是一个关键升级：新增了2576像素长边识别能力，图片清晰度比前代提升3倍以上。

工具调用评测MCP-Atlas跑出77.3%，法律AI平台Harvey的BigLaw基准拿下90.9%。

不过有一个指标反跌了：**BrowseComp（Agentic搜索评测）**从83.7%小幅回落至79.3%，被GPT-5.4和Gemini反超。

Anthropic对此的解释很有意思——这不是能力下滑，而是4.7"不肯乱编答案"的性格使然，遇到缺失信息宁可报错也不凑数。这个回答挺Anthropic的。

Claude Opus 4.7

分数之外，更值得关注的是它行为模式的变化。

Replit负责人测试后的反馈是：“它会在技术讨论中反驳我，帮我做出更好的决定，真的像一个更好的同事。”

数据科学平台Hex发现了一个很关键的改进：4.7遇到缺失数据会直接报错，而不像前代那样塞一个"看似合理但完全错误"的备选值。

这个区别有多大？举个例子：

前代遇到不确定的数据，可能会给你填一个"根据行业经验推算"的数字，听起来挺专业，其实是你自己都没意识到的错误。4.7遇到同样的情况，会直接告诉你"这里数据不全，我没法给你准确答案"。

对于需要用AI做严肃决策的人来说，"不知道就说不知道"这件事，某种程度上比"给个答案"更重要。

Notion团队的测试还发现了一个新行为：4.7在动手写系统级代码之前，会先自己做数学证明。这意味着它在执行任务之前会先验证方案的可行性，而不是上来就写，写完再改。

当然，变强是有代价的。

4.7引入了全新分词器，同样的文本会产生比原来多1到1.35倍的Token。加之它在复杂任务中倾向于"多想一会儿"，实际Token消耗几乎必然上升。

为此，Anthropic新增了xhigh超高级别思考强度，Claude Code已将所有套餐默认拉至该档位。同时推出了深度审查指令ultrareview、面向Max用户的Auto Mode扩展，以及帮助开发者管控Token支出的"任务预算"功能公测版。

说白了：你花更多的钱，但它更靠谱了。值不值，看你的需求。

4.17发布的同一天，Anthropic还透露了一个信息：Mythos Preview本月刚以"Project Glasswing"的名义小范围开放给企业，用于网络安全研究。

原因是：能力过强，安全评估尚未完成，暂不公开发布。

这大概是Anthropic式的"炫耀"——它不是告诉你"我们的新模型有多强"，而是告诉你"强到我们自己都觉得放出来有风险"。

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码