• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

Claude Opus 4.7正式发布:Anthropic这次不拼"最聪明",改拼"最靠谱"

Claude Opus 4.7正式发布:Anthropic这次不拼"最聪明",改拼"最靠谱"
AI TOP100
1小时前

Anthropic说"4.7不是最强版本",但它解决了AI最烦人的问题

Anthropic最近节奏确实快,几乎每隔一天就有新动作落地。但4月17日发布的Claude Opus 4.7,有一点不太一样。

Anthropic在公告里直接说了句大实话:“这并非我们最强大的模型。”

那个更强的Mythos Preview——按他们的说法,还在打磨中,这次不上。

这事放到别的公司,可能觉得是故意放低姿态吊胃口。但看完成绩单之后,我觉得Anthropic这次的判断是对的:4.7虽然不是"最强大",但它解决了一个比"聪明"更重要的问题——靠谱。

模型地址:Claude官网

Claude Opus 4.7

先看分数:编程能力大涨11个点

在硬核编程基准测试SWE-bench Pro上,Opus 4.7从上代53.4%直接跳到64.3%,单代涨幅近11个百分点。

这个数字横向对比是什么水平?GPT-5.4是57.7%,Gemini3.1 Pro是54.2%。4.7把这两个都超了。

视觉推理基准CharXiv从69.1%跳到82.1%,背后是一个关键升级:新增了2576像素长边识别能力,图片清晰度比前代提升3倍以上。

工具调用评测MCP-Atlas跑出77.3%,法律AI平台Harvey的BigLaw基准拿下90.9%。

不过有一个指标反跌了:**BrowseComp(Agentic搜索评测)**从83.7%小幅回落至79.3%,被GPT-5.4和Gemini反超。

Anthropic对此的解释很有意思——这不是能力下滑,而是4.7"不肯乱编答案"的性格使然,遇到缺失信息宁可报错也不凑数。这个回答挺Anthropic的。

Claude Opus 4.7

它真正解决的是什么问题?

分数之外,更值得关注的是它行为模式的变化。

Replit负责人测试后的反馈是:“它会在技术讨论中反驳我,帮我做出更好的决定,真的像一个更好的同事。”

数据科学平台Hex发现了一个很关键的改进:4.7遇到缺失数据会直接报错,而不像前代那样塞一个"看似合理但完全错误"的备选值。

这个区别有多大?举个例子:

前代遇到不确定的数据,可能会给你填一个"根据行业经验推算"的数字,听起来挺专业,其实是你自己都没意识到的错误。4.7遇到同样的情况,会直接告诉你"这里数据不全,我没法给你准确答案"。

对于需要用AI做严肃决策的人来说,"不知道就说不知道"这件事,某种程度上比"给个答案"更重要。

Notion团队的测试还发现了一个新行为:4.7在动手写系统级代码之前,会先自己做数学证明。这意味着它在执行任务之前会先验证方案的可行性,而不是上来就写,写完再改。

代价是什么?

当然,变强是有代价的。

4.7引入了全新分词器,同样的文本会产生比原来多1到1.35倍的Token。加之它在复杂任务中倾向于"多想一会儿",实际Token消耗几乎必然上升。

为此,Anthropic新增了xhigh超高级别思考强度,Claude Code已将所有套餐默认拉至该档位。同时推出了深度审查指令ultrareview、面向Max用户的Auto Mode扩展,以及帮助开发者管控Token支出的"任务预算"功能公测版。

说白了:你花更多的钱,但它更靠谱了。值不值,看你的需求。

那个"更强的Mythos"到底有多强?

4.17发布的同一天,Anthropic还透露了一个信息:Mythos Preview本月刚以"Project Glasswing"的名义小范围开放给企业,用于网络安全研究。

原因是:能力过强,安全评估尚未完成,暂不公开发布。

这大概是Anthropic式的"炫耀"——它不是告诉你"我们的新模型有多强",而是告诉你"强到我们自己都觉得放出来有风险"。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • Claude
相关资讯
  • Claude启动身份验证,国内用户的避坑指南与平替方案

  • 谷歌Gemini发布最强TTS模型,用嘴"描述"就能控制语音情感

  • Adobe推出Firefly AI Assistant,这次要"直接接管"设计师的工作流

  • Midjourney V8.1重磅发布:原生2K高清渲染速度成本双降3倍

  • 微软图像生成模型MAI-Image-2-Efficient正式推出,速度提升22%,成本降低41%

热点资讯

被全网刷屏的SBTI,背后没有心理学专家,只有一个想劝人戒酒的AI

7天前
被全网刷屏的SBTI,背后没有心理学专家,只有一个想劝人戒酒的AI

每日AI资讯-2026年4月16日

1天前
每日AI资讯-2026年4月16日

每日AI资讯-2026年4月09日

8天前
每日AI资讯-2026年4月09日

每日AI资讯-2026年4月08日

9天前
每日AI资讯-2026年4月08日

MiniMax上线全球首个云端沙箱MaxHermes,AI可以自己"提炼技能"了

1天前
MiniMax上线全球首个云端沙箱MaxHermes,AI可以自己"提炼技能"了
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有