大模型赛道正在经历一场从"参数竞赛"到"实用主义"的深刻转型。当 DeepSeek、Kimi、Qwen 相继推出万亿级模型后,小米以 MiMo 2.5 正式入场,这个时间节点值得深思。
MoE 架构的工程智慧
MiMo 2.5 Pro 采用 1.02T 总参数、42B 激活参数的 MoE(Mixture of Experts)架构。这个数字背后是工程团队对成本与性能平衡的精准把控。
MoE 的核心优势在于"稀疏激活"——模型拥有海量参数储备,但每次推理只激活其中一小部分。以 MiMo 2.5 Pro 为例,1.02T 参数中仅有 4.1% 参与单次推理。这意味着开发者在获得万亿级模型能力的同时,无需承担相应的推理成本。
对比三家头部厂商的架构选择:
| 模型 | 总参数 | 激活参数 | 激活比例 |
| MiMo 2.5 Pro | 1.02T | 42B | 4.1% |
| DeepSeek-V4-Pro | 1.6T | 未披露 | - |
| Kimi K2 | 1.0T | 未披露 | - |
小米选择公开激活参数,这一透明度在当前行业环境中颇为难得。
基准测试背后的技术真相
SWE-Bench Verified 是评估代码修复能力的权威基准。MiMo 2.5 Pro 取得 78.9 分,超越 GPT-5 High(74.9)和 Gemini 3.0 Pro(76.2)。这个成绩的意义在于:代码能力是 Agent 落地的核心基础设施。
TerminalBench 2 更值得关注——它测试模型在终端环境中的实际操作能力。MiMo 2.5 Pro 的 68.4 分与 Gemini 3.0 Pro 的 54.2 分拉开明显差距,这暗示小米在工具调用和执行链路上有独特的技术积累。
但需要理性看待:GPQA Diamond(科学推理)上 66.7 分与 GPT-5 High 的 83.7 分仍有差距。多模态理解能力在实测中也显示出与头部模型的距离。这符合技术发展的客观规律——新入局者在某些场景领先,在另一些场景追赶。
1M 上下文的战略意义
两个主力模型均支持 1M token 上下文,覆盖文本、图像、视频、音频四种模态。长上下文不是简单的"窗口扩大",而是对注意力机制、位置编码、显存管理的系统性重构。
从应用视角看,1M 上下文意味着:
· 完整代码库的一次性加载与分析
· 长视频内容的端到端理解
· 复杂多轮对话的上下文保持
这为 Agent 场景提供了技术基础——Agent 需要记忆、需要上下文、需要跨模态理解。
开源策略的生态考量
Xiaomi MiMo 开放平台 https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-open-sourced

三个模型全部采用开源协议:Pro 和 V2.5 使用 MIT 协议,ASR 模型使用 Apache 2.0。MIT 协议的宽松程度在开源社区中属于最友好级别,允许商业使用且无传染性。
结合"百万亿 Token 创造者激励计划",小米的策略清晰:以免费额度换取开发者生态,以开源模型建立技术影响力。这与 DeepSeek 的策略形成呼应——中国大模型厂商正在探索"开源+服务"的商业模式。
行业格局的三个判断
判断一:万亿参数成为 Agent 入场券
罗福莉在访谈中提出"1T 参数是 Agent 大模型的入场券"。MiMo 2.5 Pro 的 1.02T 恰好跨过这条线。Agent 需要复杂的推理、规划和工具调用能力,参数规模是这些能力的基础设施。
判断二:手机厂商的差异化路径
小米作为手机厂商,其大模型战略必然与端侧部署深度绑定。MoE 架构的稀疏激活特性,天然适合移动端的算力约束。未来可能出现"云端 Pro + 端侧 Lite"的协同部署方案。
判断三:开源模型的商业化探索
当多家厂商以开源方式提供万亿级模型,闭源模型的溢价空间将被压缩。差异化竞争将从"模型能力"转向"服务质量"、"生态工具"和"行业解决方案"。
开发者如何选择
对于开发者而言,当前是难得的"模型红利期":
1. 申请试用额度:https://100t.xiaomimimo.com/ 审核通过后可获得 2-16 亿 token 不等的免费额度

2. 评估实际场景:代码生成、Agent 场景可优先尝试;多模态理解需对比测试
测试地址:Xiaomi MiMo Studio https://aistudio.xiaomimimo.com/#/

3. 关注成本效率:激活参数决定推理成本,42B 激活在万亿模型中属于中等水平
模型能力的横向对比应基于真实业务场景,而非单一基准测试。建议用自有数据集进行 A/B 测试,关注输出质量、响应延迟、成本消耗三个维度。








