Maya Research正式上线Maya1：30亿参数的开源文本转语音神器！-AITOP100,AI资讯

2025年11月07日，语音技术领域又迎来了一位“新玩家”——Maya Research团队正式上线的Maya1。这可不是个普通的语音模型，它拥有30亿参数，能将文本和简短描述变成可控又富有表现力的语音，这能力，简直让人惊叹！它还能在单个GPU上实时运行，如此强大的功能，谁能不心动呢？相比那些只能按部就班生成语音的模型，Maya1就像是一个充满创意的魔法师，能创造出各种风格的语音，是不是很厉害？

模型地址：https://huggingface.co/spaces/maya-research/maya1 （海外网站需要科学上网）

Maya1：操作便捷，功能超强大

Maya1的操作界面特别简单，有两个输入框。一个输入自然语言语音描述，一个输入需要朗读的文本。就好比你想让一个20多岁、有英式口音、充满活力且发音清晰的女性来朗读一段话，或者让一个有着恶魔角色设定、男性声音、低音调、沙哑音色且节奏缓慢的声音来讲述内容，只需在相应输入框里写清楚，模型就能结合这两种信号，生成符合内容和描述风格的音频。

而且，用户还能在文本里插入情感标签，像<笑>、<叹气>、<低语>等，超过20种情感供你选择。这就像给语音加上了各种表情包，让语音变得生动有趣起来。

输出优质，应用场景超广泛

Maya1输出的音频是24kHz单声道的，还支持实时流媒体。这意味着什么呢？它非常适合用在助手、互动代理、游戏、播客还有直播内容里。想象一下，在游戏里，角色的语音能根据情节发展实时变化，在直播中，主播的声音能根据氛围添加各种情感，这体验感直接拉满！

架构独特，生成效率大提升

在架构方面，Maya1是一个解码器仅有的变换器，采用了类似Llama的结构。它不直接预测原始波形，而是通过名为SNAC的神经音频编码器来预测编码。整个生成流程包括文本处理、编码生成和音频解码，这样的设计能够有效提高生成效率，还方便后续升级至更高性能。就好比给汽车换了一个更强大的发动机，不仅跑得更快，还能轻松应对各种路况。

训练数据丰富，性能超卓越

Maya1的训练数据来自互联网规模的英语语音语料库，目的是学习广泛的声学覆盖和自然的连贯性。之后，它还在一个精心挑选的专有数据集上进行了微调，这个数据集包含经人类验证的语音描述和多种情感标签。经过这样的“魔鬼训练”，Maya1的性能超过了许多顶级的专有系统，而且它还完全开源，遵循Apache2.0许可证，这简直就是开源界的“宝藏男孩”。