2026年5月8日,中国移动在苏州移动云大会主论坛上发布移动模型服务平台MoMA,一口气接入了超过300款主流AI模型,包括自研的九天大模型、DeepSeek、通义千问、豆包、Kimi、GLM等。平台首创Token集约化运营模式,通过智能路由引擎自动匹配最优模型,实现单位Token成本降低约30%、资源占用率减少50%以上。开发者只需一次API接入就能调用全部模型资源,还能选择"成本优先"“效果优先”“均衡优先"三种策略,故障时秒级切换不中断。对政务、金融等高安全场景,MoMA还推出了"机密模型"服务,用硬件隔离实现"可用不可见”。

一、一次接入,300+模型随便用
说实话,这个MoMA最打动我的是"一次接入"这个设计。
以前用大模型API,想调用多个模型就得分别对接各家——DeepSeek一套API Key,通义千问一套,豆包又一套,光是文档就能看晕。MoMA把这个流程简化了:统一API网关,一次接入,全部模型都能调。
目前平台已经接入了300多款模型,覆盖文本生成、语音处理、多模态理解等能力。除了中国移动自研的九天大模型,DeepSeek、通义千问、豆包、Kimi、GLM这些主流选手都在里面。政务、金融、工业、医疗、教育……20多个行业场景基本都能覆盖。
这个思路其实有点像"AI界的App Store"——你不用关心模型是谁家的,只要知道我要干什么,平台帮你匹配最合适的那个。
二、智能路由:三种策略自动切换
MoMA首创的智能路由引擎,我觉得是它最有意思的部分。
用户发一个请求过来,引擎先分析你的需求,然后根据你选的策略去匹配模型:
- 成本优先:优先选最便宜的模型,适合对质量要求不高但调用量大的场景
- 效果优先:优先选效果最好的模型,适合对质量敏感的场景
- 均衡优先:在成本和效果之间找平衡点
更关键的是,如果某个模型超时或故障了,平台能秒级切换到备选模型,业务不中断。这个容灾能力对生产环境来说太重要了——你总不能因为某个模型挂了,整个应用就跟着瘫痪吧。
三、Token成本降三成,怎么做到的?
官方数据是:单位Token成本降低约30%,资源占用率减少50%以上。
这个降本效果是怎么来的?主要是几项技术的组合拳:
- 国产算力自研推理引擎:不依赖英伟达,成本可控
- 长尾模型调度:把低频调用的模型集中调度,减少资源闲置
- 智能缓存:相似请求复用缓存结果,不用每次都跑推理
- 上下文复用:多轮对话的上下文不重复计算
- Token压缩:对冗余Token进行压缩处理
这套组合拳打下来,成本和资源占用都大幅下降。对调用量大的企业来说,这个降本幅度是实打实的省钱。
四、流式实时计费:用多少付多少
以前用模型API,很多是按包计费——先买一个包,用不完就浪费了。MoMA改成流式实时计费,端到端时延不超过1分钟,真正实现"即用即付"。
这个计费模式对小团队和创业公司特别友好。你不用预估调用量去买包,用多少付多少,账单实时透明。平台还搭建了风控机制,每笔Token的使用都有记录,全链路可观测,方便做成本分析。
五、机密模型:数据安全最后一道防线
对政务、金融这些对数据安全要求极高的场景,MoMA推出了"机密模型"服务。
原理是把模型部署在机密容器中,用硬件隔离实现"可用不可见"——模型可以正常处理你的数据,但计算过程中的数据不会被泄露。这个设计解决了很多政企客户的核心顾虑:用AI可以,但数据不能出域。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










