工具介绍

一、Xiaomi MiMo是什么?
Xiaomi MiMo 是小米公司自研的AI大模型系列,定位为“定义智能体时代的旗舰基座大模型”。它不仅是单纯的技术产品,更是小米“人车家”全生态战略的核心智能底座。
MiMo 的核心设计理念是“端云协同”:云端侧负责复杂推理、长文本、知识问答等高负载任务;端侧则针对小米手机、IoT设备进行深度优化,实现低延迟、隐私保护的本地 AI 服务。这种架构让 MiMo 从诞生之初就不是孤立的云端模型,而是为小米生态量身定制的 AI 核心。
2025年12月,小米宣布2026年AI投入将超160亿元,显示出对这一战略的长期承诺。
二、MiMo主要模型矩阵
MiMo 已形成覆盖文本、语音、视觉、具身智能的多模态产品矩阵:
1. MiMo-V2-Pro(旗舰基座模型)
| 规格 | 参数 |
|---|---|
| 总参数量 | 超过 1 万亿(较上代翻两番) |
| 激活参数 | 420 亿 |
| 上下文长度 | 100 万 Token |
| 架构特点 | 创新混合注意力架构 |
核心能力:专为中高强度 Agent 工作场景打造,具备持续可靠地完成复杂工作流、长程规划和精准工具调用的能力。雷军曾举例称其适用于编程和“养虾”等复杂场景。
性能排名:根据第三方 AI 评测机构 Artificial Analysis 数据,MiMo-V2-Pro 在 10 个测评集综合得分 49,全球排名第七,国内排名第三,仅次于智源 GLM-5 和 MiniMax M2.7,高于 Grok 4.20 Beta。
2. MiMo-V2-Omni(全模态基座模型)
- 感知能力:原生支持图像、视频、音频、文本全模态感知,实现跨模态精准理解。
- Agent 能力:原生强大的 Agent 与 Browser Use 能力,是“通往具身智能的基座”。
- 实测成绩:Healer Alpha 测试期间 Pinchbench 均分第一。
3. MiMo-V2-TTS(语音合成模型)
- 技术架构:端到端语音生成,自研 Audio Tokenizer + 多码本语音建模。
- 训练数据:基于上亿小时语音预训练。
- 特色能力:高拟人度语音、唱歌能力、方言能力,实现“千人千声”个性化体验。
- 当前优惠:Token Plan 限时免费使用。
4. MiMo-V2-Flash(开源推理模型)
| 规格 | 参数 |
|---|---|
| 总参数 | 3090 亿 |
| 活跃参数 | 150 亿 |
| 推理速度 | 150 tokens/秒 |
| 上下文窗口 | 256K |
核心创新:
- 混合滑动窗口注意力:5:1 比例(5 层滑动窗口 + 1 层全局),KV 缓存减少近 6 倍。
- 轻量级多 Token 预测(MTP):3 层 MTP 推理加速,实现 2.0 - 2.6 倍推理速度提升。
- 成本优势:每百万 token 输入 0.1 美元、输出 0.3 美元,推理价格仅为 Claude Sonnet 4.5 的 2.5%。
基准测试成绩:
- SWE-bench Verified 得分 73.4%,超越所有开源模型,直逼 GPT-5-High。
- AIME 2025 数学竞赛、GPQA-Diamond 科学知识测试均排开源模型前两名。
- 多个 Agent 测评基准跻身“全球开源模型 TOP2”。
5. MiMo-VL 系列(视觉语言模型)
- MiMo-VL-7B:原生分辨率 ViT 编码器 + 高效 MLP 投影器 + MiMo-7B 语言模型,采用混合策略强化学习(MORL)框架。
- MiMo-VL-Miloco-7B:端侧视觉语言模型,专为智能家居场景优化,支持全屋视觉问答、规则智能触发、场景化动态推理。
6. 其他专用模型
- MiMo-Audio:语音模型,支持 3 句样本快速学习,可区分车内/车外指令,识别玻璃破碎、烟雾报警等环境音。
- MiMo-Embodied:业界首个打通自动驾驶与具身智能的跨域模型,将应用于扫地机器人、工厂 AGV、SU7 高阶智驾等产品。

三、生态兼容性
MiMo 在工具链兼容性上做了深度适配:
开发工具支持
- OpenClaw
- Claude Code
- OpenCode
- KiloCode
- Cursor
- Cline
MiMo Studio 底层架构支持 SGLang 推理加速,API 接口设计已一键兼容上述主流开发工具,便于开发者无缝接入现有工作流。
部署方式
- 云端 API:通过 Xiaomi MiMo API 平台调用。
- 端侧本地运行:针对小米手机、IoT 设备优化,支持轻量版本地部署。
- 开源自主部署:MiMo-V2-Flash、MiMo-7B 等模型已在 Hugging Face、GitHub 开源,采用 MIT 协议,可自由修改、商业使用。
四、Token 定价方案
MiMo 采用Token 折算机制,额度透明可控,提供四级梯度套餐:
| 套餐 | 原价 | 首购优惠价 | Credits/月 | 适用人群 | 核心权益 |
|---|---|---|---|---|---|
| Lite | ¥39/月 | ¥34.32/月 | 6000 万 | 尝鲜入门 | 全模型支持 |
| Standard | ¥99/月 | ¥87.12/月 | 2 亿 | 进阶用户 | 3.3 倍 Lite 用量 |
| Pro | ¥329/月 | ¥289.52/月 | 7 亿 | 专业开发者 | 11.7 倍 Lite 用量 |
| Max | ¥659/月 | ¥579.92/月 | 16 亿 | 编程开发发烧友 | 26.7 倍 Lite 用量 |
套餐统一权益:
- 支持 MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS 三大旗舰模型。
- 支持 OpenClaw、Claude Code、OpenCode、KiloCode 等主流编程工具。
- MiMo-V2-TTS 模型限时免费使用。
⚠️ 限制:一个账号仅支持享受一次首购优惠
API 定价参考(MiMo-V2-Pro):
- 256K Tokens 上下文:输入 1/百万Tokens,输出3/百万 Tokens。
- 100 万 Tokens 上下文:输入 2/百万Tokens,输出6/百万 Tokens。

五、平台入口
| 平台 | 链接 | 功能说明 |
|---|---|---|
| Xiaomi MiMo API | https://platform.xiaomimimo.com/ | API 调用、Token 购买 |
| Xiaomi MiMo Studio | https://aistudio.xiaomimimo.com/#/ | 在线体验、模型测试 |
| 官方博客 | https://mimo.xiaomi.com/ | 产品动态、技术博客 |
| 开源仓库 | Hugging Face / GitHub | 模型权重、推理代码下载 |
六、其他关键信息
核心优势
- 中文能力突出:中文语料占比超过 40%,中文互联网语境下的理解力、表达力优于海外模型。
- 小米生态深度融合:在米家智能设备控制、IoT 开发等场景具有独家优势。
- 端云协同架构:兼顾性能与隐私,支持本地运行。
- 高性价比:MiMo-V2-Flash 推理成本仅为同类闭源模型的 2.5%。
- 开源策略:关键模型采用 MIT 协议开源,吸引第三方开发者。
应用场景
- 编程开发:代码生成、Bug 修复、工具调用。
- 智能家居:全屋视觉问答、场景联动、设备控制。
- 智能座舱:语音交互、环境音识别。
- 具身智能:扫地机器人、自动驾驶、工厂 AGV。
- 无障碍服务:视障环境描述、听障手语识别与语音合成转换。
发展动态
- 2025 年 4 月:开源首个推理大模型 MiMo-7B,数学与代码测评超越 OpenAI o1-mini。
- 2025 年 12 月:发布并开源 MiMo-V2-Flash,性能媲美 DeepSeek-V3.2、Kimi-K2。
- 2026 年 3 月:雷军宣布 2026 年 AI 投入超 160 亿元,发布 MiMo-V2-Pro。
七、总结
Xiaomi MiMo 代表了小米在 AI 领域的系统性布局。它不是单一模型的竞争,而是通过端云协同架构 + 多模态模型矩阵 + 开源生态策略 + 人车家场景落地,构建差异化竞争优势。对于小米生态用户和开发者而言,MiMo 提供了从云端到端侧、从通用能力到垂直场景的全栈 AI 解决方案,是“年轻人的第一个 AI”的切实落地。
AITOP100作为华强方特(深圳)动漫有限公司倾力打造的AI数智化聚合营销平台,同时也作为全网最全AI大赛活动举办和收录平台以及国内AI头部社区之一,平台已收录超700场AI视频、绘画、写作、算法等大赛。更有AI工具、资讯、教程、大咖直播。承办线上线下活动。快来参与或合作!
官网:https://www.aitop100.cn
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:


评论
全部评论

暂无评论
热门推荐
相关推荐

开搜AI搜索
开搜AI搜索,这款国产的AI搜索引擎平台,致力于为用户提供如同Google搜索般高效、便捷的搜索体验。它利用先进的AI技术,精准把握用户的搜索意图,快速呈现最相关、最可靠的信息,让您无需像使用soso搜索时那样翻阅多个网页。
LightSeek
LightSeek是上海交通大学无锡光子芯片研究院(CHIPX)于2025年12月8日正式开放的全球首个光子芯片全链垂直大模型,其定位为“光子芯片领域的AI工程师”。通过模拟资深工程师的决策逻辑,LightSeek能够理解多模态输入,并输出专业级解决方案,涵盖从概念设计到量产落地的全流程。
Nova Sonic
Nova Sonic是亚马逊近期推出的一款新一代AI语音模型,旨在进一步提升其语音助手Alexa+的性能。这款模型通过整合语音理解和生成的能力,为用户带来更加自然流畅的对话体验。Nova Sonic的推出,标志着亚马逊在语音识别技术领域再次取得了重大突破。
Waver
Waver是由Foundation Vision团队开源的通用视频生成大模型,它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
EasyControl
EasyControl是一个在人工智能绘画领域具有创新意义的框架,专为基于 Transformer 架构的扩散模型(DiT)设计,旨在提供高效且灵活的条件控制能力,犹如为DiT模型装上了强大的“ControlNet
Marey Realism
Marey Realism由洛杉矶初创公司Moonvalley与AI动画工作室Asteria联合开发,其命名致敬电影运动分析先驱Étienne-Jules Marey。作为全球首款完全基于授权数据训练的企业级AI视频模型,Marey的核心定位是“辅助而非取代专业创作者”,
Qwen3-Omni
Qwen3-Omni是阿里云通义千问团队在2025年9月23日正式发布的全球首个原生端到端全模态AI模型,并同步开源模型权重、代码及配套工具链。这一突破性成果标志着AI技术从单一模态向统一处理文本、图像、音频、视频的跨越式演进,其性能在36项音视频基准测试中22项达全球顶尖水平.
DeepSeek Janus-Pro
DeepSeek Janus-Pro是由中国人工智能初创公司DeepSeek于2025年1月28日发布的开源多模态AI模型。该模型主要应用于文本生成图像(文生图)领域,通过先进的算法和丰富的训练数据,实现了高质量的图像生成和多模态理解。
0
0






