如果说过去一年大模型行业最常被追问的问题是“够不够聪明”,那么接下来,一个更现实的问题会被反复摆到台前:够不够快。
6 月 8 日晚,小米 MiMo 技术团队上线 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式。公开报道显示,该模式在通用 GPU 上实现推理速度突破 1000 tokens/s,并且强调不依赖定制芯片,而是通过模型、推理引擎和 GPU 执行路径的全链路优化完成。
这件事的看点,不只是一个速度数字。
更关键的是:当万亿参数级模型也开始追求接近实时的输出速度,大模型的竞争逻辑就不再只是“谁的回答更好”,而是进入“谁能更快进入工作流”的阶段。

1000 tokens/s,为什么重要?
很多人看到 tokens/s,第一反应是:这不就是输出快一点吗?
但在 Agent、代码生成、复杂检索、多轮规划这些场景里,速度不是体验细节,而是产品能不能成立的前提。
一个聊天机器人慢几秒,用户还能忍。
但一个 Agent 如果要连续调用几十次模型,每一步都等几秒,最终任务就会被拖成分钟级甚至更久。用户表面上是在等一个答案,实际上是在等整个任务链路跑完。
这也是 UltraSpeed 模式值得关注的原因。
公开信息显示,MiMo-V2.5-Pro-UltraSpeed 试图打破的是过去大模型推理里的一个“不可能三角”:模型要强、速度要快、还要跑在通用 GPU 上。
如果这个方向成立,AI 产品的门槛会发生变化:
- 不是只看模型能不能答对;
- 还要看它能不能持续、高频、低延迟地执行;
- 更要看它能不能在真实业务链路里承受多次调用。
换句话说,速度正在从“性能指标”,变成“产品能力”。
小米这次拼的不是单点模型,而是全链路工程
从公开报道看,MiMo-V2.5-Pro-UltraSpeed 并不是简单换一个更快的模型版本,而是一次从模型结构到执行系统的协同优化。
核心信息包括几层:
第一,基于 Xiaomi MiMo-V2.5 Pro 的 SWA 架构。
第二,叠加 FP4 Experts,让模型在保持能力的同时,降低推理过程中的计算与带宽压力。
第三,使用 DFlash 解码机制,优化生成阶段的效率。
第四,结合 TileRT 团队的执行系统 Co-design,从推理引擎到 GPU 执行路径做全链路优化。
这说明一个趋势:大模型的性能提升,已经很难只靠“更大参数”解决。
过去大家更关注模型训练,谁的数据更多,谁的参数更大,谁的榜单更高。
但当模型进入应用侧,推理系统的重要性会迅速上升。因为用户真正感知到的,不是训练过程,而是每一次点击、每一次生成、每一次 Agent 执行时的响应速度。
所以,小米这次释放的信号其实很明确:模型公司不能只做模型,也要补推理工程、系统优化和算力调度的课。
这也是为什么 1000 tokens/s 这个指标会被放大讨论。
它背后不是“跑得快”这么简单,而是模型产品化开始进入工程密集区。

从“聊天实时”到“任务实时”
大模型最早的爆发,是聊天体验。
只要模型能听懂问题、写出内容、完成问答,就足以让用户感到震撼。
但今天的 AI 正在从聊天工具变成生产力工具。它要写代码、改文档、查资料、拆任务、调用工具、跑流程,甚至协调多个 Agent 一起工作。
这时候,真正的瓶颈就变成了“任务实时”。
例如:
- Coding Agent 需要快速生成、检查、修复、再生成;
- 搜索 Agent 需要连续访问页面、判断信息、整理结论;
- 办公 Agent 需要在文档、表格、PPT 之间反复调用模型;
- 多 Agent 协作需要并行推演不同方案,再快速合并判断。
这些场景都不是一次生成就结束,而是模型在后台持续参与任务执行。
如果每一步都慢,Agent 就像一个很聪明但动作迟缓的员工;如果推理速度足够快,它才有机会变成真正可用的工作助手。

速度,也会改变 AI 商业化
值得注意的是,公开报道还提到,MiMo-V2.5-Pro-UltraSpeed 模式采用申请制限时开放,通过申请的用户可接入 API 体验。
这说明高速推理并不是“无限量免费供应”的能力。
它会牵涉资源供给、算力成本、API 定价、调用优先级,以及企业用户对实时任务的真实需求。
未来 AI 商业化很可能出现新的分层:
基础模型负责通用能力;
低成本模型负责大规模调用;
高速模型负责强实时任务;
多模型系统则根据任务类型动态切换。
这和过去云计算里的资源分层很像:不是所有任务都需要最高规格资源,但关键任务愿意为低延迟和高稳定性付费。
如果说 Token 计费解决的是“用多少”的问题,那么 UltraSpeed 这类模式解决的就是“多快可用”的问题。
速度本身,也会变成一种可售卖的能力。
小米 AI 的节奏变快了
从公开信息看,小米 AI 近期动作比较密集。
4 月,MiMo-V2.5-Pro 在相关大模型测评中拿到较高评价;
5 月,MiMo-V2.5 系列模型 API 因技术优化宣布最高降价,并调整 Token Plan 计费体系;
6 月,UltraSpeed 模式又把推理速度推到 1000 tokens/s 级别。
这条线索放在一起看,能看到一个清晰方向:
小米不是只在做一个“能聊天的大模型”,而是在围绕模型能力、推理成本和推理效率三件事同时推进。
这对小米尤其重要。
因为它拥有手机、汽车、IoT、智能家居等大量真实终端和场景。对这类公司来说,AI 最终不是停留在网页对话框里,而是要进入设备、系统和服务。
而一旦 AI 进入终端场景,响应速度就会变得极其关键。
用户不会接受一个车机助手思考太久,也不会接受一个设备控制指令延迟明显,更不会接受一个办公 Agent 每一步都卡顿。
所以,UltraSpeed 更像是小米在为“实时 AI 体验”铺路。
真正的竞争,才刚开始
当然,1000 tokens/s 仍然需要放在具体条件里理解。
例如测试环境、硬件配置、任务类型、上下文长度、并发能力、稳定性、成本结构,都会影响真实可用性。对于企业用户来说,单次峰值速度只是第一步,长期稳定、成本可控和接入方便同样重要。
但它仍然代表了一个方向:
大模型行业正在从“模型能力竞赛”,进入“能力、成本、速度、工程化交付”的综合竞赛。
未来真正好用的 AI,不只是更聪明,还要更快、更稳、更便宜、更容易被集成进工作流。
小米 MiMo-V2.5-Pro-UltraSpeed 模式的意义,也正在这里。
它提醒行业:当模型能力逐渐接近,推理速度会成为下一轮产品体验的放大器。
谁能让 AI 更快进入任务,谁就更接近真正的生产力入口。
参考信息:新京报、证券时报、东方财富网等公开报道中关于 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式、通用 GPU 上突破 1000 tokens/s、SWA 架构、FP4 Experts、DFlash 解码、TileRT 执行系统 Co-design 以及申请制限时 API 体验等信息。








