小米OmniVoice开源600+语种TTS模型，中文准确率吊打ElevenLabs？-AITOP100,AI资讯

说实话，看到这个数据的时候我有点意外——小米在语音合成领域居然已经做到这个水平了。

OmniVoice，这是小米下一代 Kaldi 团队（k2-fsa）刚刚开源的项目。一个支持600多种语言的零样本文本转语音模型，而且多项指标达到了 SOTA。更关键的是，它完全开源，代码和预训练模型都在 GitHub 和 Hugging Face 上。

项目地址：https://github.com/k2-fsa/OmniVoice

小米OmniVoice

中文识别准确率到底有多强？

先看一组数据：在 Seed-TTS 中文测试集上，OmniVoice 的词错误率（WER）只有 0.84%。

这个数字什么概念？ElevenLabs v2 和 MiniMax 这些主流商用模型，在多语言 benchmark 上已经被它超越了。相似度（SIM-o）和 WER 指标都领先。

说实话，ElevenLabs 在语音合成领域一直是标杆级别的存在。小米这个开源项目能在指标上超过它，确实有点东西。

OmniVoice 的实时因子（RTF）低至 0.025。

简单解释一下：RTF = 1 意味着合成速度等于实时播放。RTF = 0.025，意味着合成速度是实时的 40 倍。

也就是说，一段 1 分钟的语音，它只需要 1.5 秒就能合成完。这对于需要大量语音生成的场景——比如有声书、语音助手、游戏配音——价值太大了。

OmniVoice 用的是扩散语言模型风格的离散非自回归架构。

这个设计的核心优势是：可以直接从文本一步生成语音，跳过传统的中间语义 token 阶段。流程简化了，但质量没打折。

另外，它用了全码本随机掩码策略，结合预训练 LLM 初始化。这两个技术点让训练效率更高，输出的清晰度和可懂度也更好。

这是我觉得最有意思的功能：零样本语音克隆。

只需要 3-10 秒的参考音频，就能克隆出一个高质量的声音。而且还能通过自然语言描述来定制——性别、年龄、音调、口音、方言，甚至可以生成耳语风格。

想象一下，你上传一段 5 秒的录音，然后告诉它"用这个声音，但是更年轻一点，带点南方口音"，它就能生成符合要求的声音。这个可玩性太强了。

OmniVoice 覆盖 600 多种语言，这是它最大的亮点。

对于小语种和濒危语言来说，这个技术意义重大。传统语音合成需要大量标注数据，成本极高。但 OmniVoice 只需要少量样本就能生成高质量语音。

这意味着，那些只有几千人说的语言，也有机会被数字化保存下来。不只是技术突破，更是文化保护层面的贡献。

这些细节功能，让它不只是"能说"，而是能"说得好"、"说得准确"。

代码和模型都在 GitHub 和 Hugging Face 上，开发者可以本地部署或集成到自己的应用里。

对于语音合成这个领域来说，一个达到 SOTA 水平的开源模型，会大大降低技术门槛。小团队、个人开发者，不用再花大价钱买商用 API，自己部署就能用。

这可能会催生一批新的语音应用。有声书、虚拟主播、游戏配音、语言学习工具……想象空间很大。

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码