Agent 开发最痛苦的时刻是什么?是你写了一套完美的多步工作流,结果模型每次回复要等好几秒,整个流程卡成 PPT。
这个问题,国内一直没解决得很好——大模型参数越大越强,但速度也越慢,做实时 Agent 应用要么降级用小模型,要么硬着头背延迟骂用户。
阶跃星辰今天(2026年5月29日)开源的 Step 3.7 Flash,就是来解决这个问题的。
该模型采用稀疏 MoE 架构,总参数量 196B,官方标称最高生成速度 400 Tokens/s。这个数字什么概念?GPT-4o 级别的模型日常跑在 60-100 Tokens/s,400 Tokens/s 基本是实打实的四倍速,直接把大模型从"思考半天才能吐字"拉到了"说话跟人一样快"的档位。
工具地址:阶跃星辰官网

为什么说"速度翻倍"不是噱头?
做 Agent 应用的人都清楚,速度不只是体验问题,更是功能问题。
想象一个典型场景:你让 Agent 帮你规划旅行,它调用了 5 次工具、做了 3 次联网搜索、最后整理成行程。如果每次回复要 5 秒,这个流程跑下来就是半分钟起步,用户早就放弃了。
但如果每次回复 1 秒以内,整个流程 10 秒跑完——这就是"能用"和"不能用"的区别。
Step 3.7 Flash 的 400 Tokens/s,是目前开源 MoE 模型里少有的高速档。结合 196B 的参数量,理论上能同时兼顾"够聪明"和"跑得快"两个目标。
它不只是快,还能"看图干活"
速度之外,这块模型还有几个很实在的升级:
原生多模态:能直接理解 UI 界面截图、图表、文档,不需要额外 OCR 或者转译。这意味着可以直接做"看图做任务"的 Agent——截图发过去,模型识别界面,生成对应操作指令。
联网+图像双检索:不仅能搜文字,还能同时搜图,并且把文本证据和图像证据做交叉比对,减少幻觉。这个在需要实时信息核验的场景里很关键。
工具调用更稳了:这是很多 Agent 系统崩掉的主要原因——链路一长,工具调用失败率就飙升。Step 3.7 Flash 在长链路多轮次工作流里专门做了稳定性优化,API、浏览器、终端、Office 工具都能顺滑驱动。
主流 Agent 框架兼容:对主流工具调用协议做了深度适配,开发者接入现有工作流不用大改,降低了迁移成本。
开源这件事,产业意义很大
196B 级别的 MoE 模型,目前开源的选择不多,能达到这个速度梯队的更少。
此前想做生产级 Agent 应用,团队要么用闭源 API 受限于速率和成本,要么用开源模型但速度和能力都要打折扣。Step 3.7 Flash 开源,加上这个速度表现,至少给了一种"不用妥协"的选项。
具体效果还是要看实际部署后的表现,但参数和速度指标本身,已经让这个开源版本的期待值拉满了。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










