速度飙2.5倍、价格砍2/3!Claude Opus 4.8上线,Anthropic直接掀桌子了
Anthropic在2026年5月29日发布了Claude Opus 4.8,这次升级的数据相当猛:编程基准SWE-Bench Pro拿下69.2%,多项核心基准超越GPT-5.5和Gemini 3.1 Pro;快速模式下生成速度飙升2.5倍,而模型消耗成本仅为之前的1/3。加量还降价,Anthropic这波操作摆明了是要在价格战里主动出击。
但比数据更值得关注的是能力层面的变化。Anthropic称,Opus 4.8在处理复杂多步骤任务时,如果发现计划不合理会主动向用户提出异议并标注不确定性,"放任代码缺陷不加说明"的概率直接降到前代的1/4。这个变化在Agent场景里非常有价值——一个知道自己什么时候不知道的AI,比一个什么都敢回答的AI可靠得多。新增的"努力程度"控制功能也让用户可以在质量优先和速度优先之间自由切换,不再被迫二选一。
Claude平台这次的大改版,释放了一个清晰信号:Anthropic不打算只在"能力最强"这一个维度上竞争,而是要在速度、成本、可靠性三个维度同时发力。当模型速度快2.5倍且成本降到1/3时,很多之前因为响应延迟或调用成本而无法落地的Agent场景,经济模型会发生根本性的变化。Anthropic正在用实际产品证明一件事:旗舰模型不一定意味着贵和慢。
详情查看: https://www.aitop100.cn/claude-qpus-4.8
一行命令编排全栈AI能力!阿里百炼CLI开源,Agent开发进入"命令行时代"
阿里云百炼2026年5月29日宣布全面CLI化并开源,把主流模型调用、工作流编排、知识库检索、长期记忆管理、联网搜索、多模态文件处理等能力统一封装成命令行工具。开发者装好之后,一行命令就能在Claude Code、Qoder、Qwen Code、OpenClaw等主流Agent框架中调用百炼的全栈能力。
这个动作的实质是什么?是把AI Agent开发从"对着文档调API"变成了"写脚本调命令"。听起来差别不大,但在实际开发中,这个差异是巨大的。当前Agent落地最大的痛点之一就是多头对接——模型API一个接口、知识库一个接口、联网搜索又一个接口,每个接口的鉴权方式和参数结构都不一样,光是把这些东西串起来就要花大量时间。百炼CLI把这些全部统一到一个入口里,开发者只需要关心"我要做什么"而不是"每个接口怎么调"。
开源这个决策也值得玩味。GitHub仓库已上线,收录了20多个专家Skills和Showcase项目。阿里在Agent基础设施这条路上选择开源而不是闭源,策略上跟Hugging Face的路数类似——先把开发者生态圈起来,让社区帮着完善工具链,再通过云服务变现。当CLI成为开发者构建Agent工作流的标准工具时,百炼平台作为底层能力供应商的位置就稳了。对开发者来说,这确实降低了门槛;对阿里来说,这是一步生态占位的好棋。
模型地址: https://github.com/modelstudioai/cli

机器人终于不再"逐帧学动作"了!自变量团队发布全球首个事件级具身智能世界模型
自变量机器人团队5月29日发布了WALL-WM,这是全球首个基于"事件级预测"的具身智能世界模型。它的核心思路可以用一句话概括:让机器人不再死板地推算"下一帧画面长什么样",而是去预测"下一个动作会导致世界发生什么变化"。这个范式转换,可能会根本性地改变机器人学任务的方式。
为什么这件事重要?当前主流的视觉-语言-动作(VLA)模型普遍采用逐帧预测模式——给定当前画面和指令,预测接下来几帧的动作。这种训练方式的问题在于,机器人只能记住微小的物理挪动,而忽略了动作的最终目标。换个杯子、换个桌子,场景稍微一变就翻车。根源在于,文本、视觉和动作在真实世界中天然存在不同的时间尺度和几何结构,强行在一个共享空间里对齐会损害预训练的几何先验。
WALL-WM的解法是把复杂任务按动作边界切分为"伸手"、“抓取”、“移位"等具有明确语义的事件,先预演事件导致的视觉变化,再翻译为机械臂运动轨迹。这个架构还支持在同一个基座权重下切换"事件模式"和"统一模式”——前者处理变长动作输出,后者做实时闭环控制。
配合阶梯式思维链解码、视锥掩码、FP8量化等工程优化,WALL-WM在真机Core15L1泛化场景中取得了优异成绩,代码已开源。这个项目的发布,意味着具身智能正在从"模仿学习"向"理解物理世界"的方向迈出实质性的一步。

记忆密度升45%、Token省35%!腾讯混元Hy-Memory给AI Agent装上了"第二大脑"
腾讯混元5月28日发布了专为长期协作型Agent设计的记忆插件Hy-Memory,直击一个行业级痛点:AI Agent用三周就会"变笨"。第一周惊艳、第二周开始遗忘和漂移、第三周退化成普通查询工具——这是当前长期协作Agent普遍面临的"三周轨迹"困境。
Hy-Memory的解法是三层技术架构。第一层是6层记忆框架(L1原始痕迹到L6前瞻意图),拒绝把所有信息一股脑塞进向量库,而是精准归位,避免模型注意力被无关内容稀释。第二层是System1/System2双系统——System1在用户按回车的一秒内实时抽离事实并更新摘要,确保下一句对话立刻能用;System2在后台异步沉淀用户的心智模型和知识网络,让Agent越用越聪明但不卡主链路。第三层是最有创意的"演化链"机制:当用户观念发生改变时,通过supersedes指针把新旧记忆串联成链,一旦命中链上任一节点,整条演化路径自动展开,Agent既能记住最新结论也能复盘历史踩坑。
评测数据上,Hy-Memory在LongMemEval和PersonaMem上击败了mem0、Graphiti等主流框架,记忆数量降低70%以上,单条信息密度提升45%,Token消耗降低35%。写入速度与mem0同档,是Graphiti的8倍,记忆条数仅为mem0的1/3。
本地嵌入式存储,无需部署外部服务,5分钟即可完成配置。三档配置(Lite/Pro/Ultra)共用同一套SDK,按需切换。对于任何在构建长期协作Agent的开发者来说,Hy-Memory都值得认真评估。
详情查看: https://www.aitop100.cn/infomation/details/33913.html

阶跃星辰开源Step 3.7 Flash:196B参数MoE架构,每秒飙400 Tokens
阶跃星辰5月29日发布并开源了Step 3.7 Flash,一款专为Agent生产化落地设计的模型。196B参数的稀疏混合专家(MoE)架构,最高生成速度达到每秒400 Tokens。这个速度意味着什么?在实时对话场景中,用户几乎感觉不到等待延迟,AI回复的流畅度会接近真人打字。
但Step 3.7 Flash不只是"快"。它的原生多模态能力可以直接识别并解析UI界面、图表和文档等复杂视觉信息,把视觉内容快速转化为结构化数据甚至直接生成执行代码。联网检索方面也做了显著增强,能在开放网络环境中主动获取跨文本与图像的多源证据,通过交叉比对确保准确性。这两项能力的组合,让它在复杂工作流场景中具备了很强的实用性。
在Agent编排方面,Step 3.7 Flash对长链路、多轮次的智能体工作流表现出很高的工具调用稳定性,可以顺畅驱动API、浏览器、终端及Office工具,同时对主流Agent开发框架和工具调用协议做了深度兼容优化。阶跃星辰这次把Step 3.7 Flash开源,信号也很明确:先把模型能力验证跑通,再通过开源吸引开发者生态。
在当前国内大模型价格战打得不可开交的背景下,一个既快又稳且开源的Agent专用模型,对于不想被锁定在单一商业平台的开发者来说,是一个有吸引力的选项。
详情查看: https://www.aitop100.cn/infomation/details/33912.html

微软下周Build大会要放什么大招?自研AI模型矩阵浮出水面
微软计划在下周旧金山Build开发者大会上发布多款自研AI模型,这个消息本身就值得细品——长期以来,微软的AI产品(GitHub Copilot、365 Copilot)主要依赖OpenAI和Anthropic的模型运行。虽然微软对OpenAI模型拥有免费使用权至2032年,但受限于合作协议条款,在此前无法研发达到顶尖水平的自研模型。现在这个限制正在松动。
据披露,微软将推出一款高性价比的代码专用模型,定位是Claude的"平价替代方案",目标是挽回被Cursor和Claude Code蚕食的GitHub Copilot市场份额。此外还有多款不同参数规格的迭代模型,分别专攻语音转写、逻辑推理、语音处理和图像生成等场景,通过Azure向开发者开放。这个模型矩阵的布局逻辑很清晰:不是要做一个全能冠军,而是在各个垂直场景里用高性价比的自研模型替代昂贵的第三方模型,降低365 Copilot等产品的内部运营成本。
从更大的格局来看,微软此举跟谷歌的策略高度相似——都在加速摆脱对高价外部技术供应商的依赖,建立自己的AI能力栈。当OpenAI的技术使用权在约六年后到期,微软需要有自己的底牌。
Build大会上的这些发布,就是微软在AI自主可控道路上迈出的实质性一步。全球大模型市场正在从纯粹的能力军备竞赛,加速走向成本与生态应用的对决。

小红书PC端上线AI搜索助手"点点":让真实笔记帮你做决策
小红书近日在PC端上线了AI搜索助手"点点"(xiaohongshu.com/ai_chat),把此前移动端已上线的AI能力延伸到大屏生态。"点点"基于小红书海量的真实笔记内容,将传统被动搜索升级为主动对话式交互——用户提问后,AI提炼总结给出答案,右侧同步展示相关笔记的原文、点赞、收藏及评论等真实互动数据。
这个设计的巧妙之处在于,它没有抛弃小红书最核心的资产——真实用户的经验和评价。很多AI搜索工具的问题在于,回答看起来很专业但缺乏实际验证,用户不知道答案是不是靠谱。"点点"的做法是把AI生成的总结和原始笔记数据并排展示,用户既能快速获取答案,也能一键查看背后的真实来源做交叉验证。这种"生成式AI+真实社区生态"的差异化路线,在AI搜索竞争越来越同质化的当下,是一个有辨识度的切入点。
功能层面,"点点"支持旅游攻略定制、生活技能学习等多轮对话追问,还打通了个人数据资产——用户可以将此前点赞或收藏的笔记直接导入对话框作为上下文背景。这意味着同一个问题,不同用户得到的答案会因各自的收藏和偏好而有所差异,个性化程度显著提升。
小红书的做法给行业提供了一个有趣的思路:AI搜索不一定非要跟Perplexity、Google拼全网信息覆盖,深耕垂直场景的真实经验知识库,可能反而是一条更实际的路。
详情查看: https://www.aitop100.cn/infomation/details/33911.html

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










