小米 MiMo 冲到 1000 tokens/s：大模型竞争，开始拼“实时感”了-AITOP100,AI资讯

如果说过去一年大模型行业最常被追问的问题是“够不够聪明”，那么接下来，一个更现实的问题会被反复摆到台前：够不够快。

6 月 8 日晚，小米 MiMo 技术团队上线 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式。公开报道显示，该模式在通用 GPU 上实现推理速度突破 1000 tokens/s，并且强调不依赖定制芯片，而是通过模型、推理引擎和 GPU 执行路径的全链路优化完成。

这件事的看点，不只是一个速度数字。

更关键的是：当万亿参数级模型也开始追求接近实时的输出速度，大模型的竞争逻辑就不再只是“谁的回答更好”，而是进入“谁能更快进入工作流”的阶段。

1000 tokens/s，为什么重要？

很多人看到 tokens/s，第一反应是：这不就是输出快一点吗？

但在 Agent、代码生成、复杂检索、多轮规划这些场景里，速度不是体验细节，而是产品能不能成立的前提。

一个聊天机器人慢几秒，用户还能忍。

但一个 Agent 如果要连续调用几十次模型，每一步都等几秒，最终任务就会被拖成分钟级甚至更久。用户表面上是在等一个答案，实际上是在等整个任务链路跑完。

这也是 UltraSpeed 模式值得关注的原因。

公开信息显示，MiMo-V2.5-Pro-UltraSpeed 试图打破的是过去大模型推理里的一个“不可能三角”：模型要强、速度要快、还要跑在通用 GPU 上。

如果这个方向成立，AI 产品的门槛会发生变化：

不是只看模型能不能答对；
还要看它能不能持续、高频、低延迟地执行；
更要看它能不能在真实业务链路里承受多次调用。

换句话说，速度正在从“性能指标”，变成“产品能力”。

小米这次拼的不是单点模型，而是全链路工程

从公开报道看，MiMo-V2.5-Pro-UltraSpeed 并不是简单换一个更快的模型版本，而是一次从模型结构到执行系统的协同优化。

核心信息包括几层：

第一，基于 Xiaomi MiMo-V2.5 Pro 的 SWA 架构。

第二，叠加 FP4 Experts，让模型在保持能力的同时，降低推理过程中的计算与带宽压力。

第三，使用 DFlash 解码机制，优化生成阶段的效率。

第四，结合 TileRT 团队的执行系统 Co-design，从推理引擎到 GPU 执行路径做全链路优化。

这说明一个趋势：大模型的性能提升，已经很难只靠“更大参数”解决。

过去大家更关注模型训练，谁的数据更多，谁的参数更大，谁的榜单更高。

但当模型进入应用侧，推理系统的重要性会迅速上升。因为用户真正感知到的，不是训练过程，而是每一次点击、每一次生成、每一次 Agent 执行时的响应速度。

所以，小米这次释放的信号其实很明确：模型公司不能只做模型，也要补推理工程、系统优化和算力调度的课。

这也是为什么 1000 tokens/s 这个指标会被放大讨论。

它背后不是“跑得快”这么简单，而是模型产品化开始进入工程密集区。

从“聊天实时”到“任务实时”

大模型最早的爆发，是聊天体验。

只要模型能听懂问题、写出内容、完成问答，就足以让用户感到震撼。

但今天的 AI 正在从聊天工具变成生产力工具。它要写代码、改文档、查资料、拆任务、调用工具、跑流程，甚至协调多个 Agent 一起工作。

这时候，真正的瓶颈就变成了“任务实时”。

例如：

Coding Agent 需要快速生成、检查、修复、再生成；
搜索 Agent 需要连续访问页面、判断信息、整理结论；
办公 Agent 需要在文档、表格、PPT 之间反复调用模型；
多 Agent 协作需要并行推演不同方案，再快速合并判断。

这些场景都不是一次生成就结束，而是模型在后台持续参与任务执行。

如果每一步都慢，Agent 就像一个很聪明但动作迟缓的员工；如果推理速度足够快，它才有机会变成真正可用的工作助手。

速度，也会改变 AI 商业化

值得注意的是，公开报道还提到，MiMo-V2.5-Pro-UltraSpeed 模式采用申请制限时开放，通过申请的用户可接入 API 体验。

这说明高速推理并不是“无限量免费供应”的能力。

它会牵涉资源供给、算力成本、API 定价、调用优先级，以及企业用户对实时任务的真实需求。

未来 AI 商业化很可能出现新的分层：

基础模型负责通用能力；

低成本模型负责大规模调用；

高速模型负责强实时任务；

多模型系统则根据任务类型动态切换。

这和过去云计算里的资源分层很像：不是所有任务都需要最高规格资源，但关键任务愿意为低延迟和高稳定性付费。

如果说 Token 计费解决的是“用多少”的问题，那么 UltraSpeed 这类模式解决的就是“多快可用”的问题。

速度本身，也会变成一种可售卖的能力。

小米 AI 的节奏变快了

从公开信息看，小米 AI 近期动作比较密集。

4 月，MiMo-V2.5-Pro 在相关大模型测评中拿到较高评价；

5 月，MiMo-V2.5 系列模型 API 因技术优化宣布最高降价，并调整 Token Plan 计费体系；

6 月，UltraSpeed 模式又把推理速度推到 1000 tokens/s 级别。

这条线索放在一起看，能看到一个清晰方向：

小米不是只在做一个“能聊天的大模型”，而是在围绕模型能力、推理成本和推理效率三件事同时推进。

这对小米尤其重要。

因为它拥有手机、汽车、IoT、智能家居等大量真实终端和场景。对这类公司来说，AI 最终不是停留在网页对话框里，而是要进入设备、系统和服务。

而一旦 AI 进入终端场景，响应速度就会变得极其关键。

用户不会接受一个车机助手思考太久，也不会接受一个设备控制指令延迟明显，更不会接受一个办公 Agent 每一步都卡顿。

所以，UltraSpeed 更像是小米在为“实时 AI 体验”铺路。

真正的竞争，才刚开始

当然，1000 tokens/s 仍然需要放在具体条件里理解。

例如测试环境、硬件配置、任务类型、上下文长度、并发能力、稳定性、成本结构，都会影响真实可用性。对于企业用户来说，单次峰值速度只是第一步，长期稳定、成本可控和接入方便同样重要。

但它仍然代表了一个方向：

大模型行业正在从“模型能力竞赛”，进入“能力、成本、速度、工程化交付”的综合竞赛。

未来真正好用的 AI，不只是更聪明，还要更快、更稳、更便宜、更容易被集成进工作流。

小米 MiMo-V2.5-Pro-UltraSpeed 模式的意义，也正在这里。

它提醒行业：当模型能力逐渐接近，推理速度会成为下一轮产品体验的放大器。

谁能让 AI 更快进入任务，谁就更接近真正的生产力入口。

参考信息：新京报、证券时报、东方财富网等公开报道中关于 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式、通用 GPU 上突破 1000 tokens/s、SWA 架构、FP4 Experts、DFlash 解码、TileRT 执行系统 Co-design 以及申请制限时 API 体验等信息。