小红书发布对话合成模型FireRedTTS-2：显著提升多说话人语音自然度与稳定性-AITOP100,AI资讯

2025年9月初，小红书智创音频技术团队重磅推出新一代对话合成模型——FireRedTTS-2，这一成果无疑为对话生成技术领域注入了新的活力，标志着该技术迈向了一个新的高度。

FireRedTTS-2

FireRedTTS-2直击痛点，解决现有难题

现有的对话合成方案在实际应用中暴露出不少问题，像灵活性差，难以满足多样化的创作需求；发音错误频繁，影响音频质量；说话人切换不稳定，导致对话连贯性大打折扣；韵律自然度不足，听起来生硬不自然。这些问题严重制约了对话合成技术在更广泛场景中的应用。

而小红书此次推出的FireRedTTS-2，正是为了解决这些痛点应运而生。它就像一位技艺精湛的工匠，对现有技术进行了精心打磨和升级，致力于为用户带来更优质、更高效的对话合成体验。

FireRedTTS-2的核心升级，效果显著提升

FireRedTTS-2的出色表现离不开其核心模块的升级。其中，离散语音编码器和文本语音合成模型的改进是关键所在。通过对这两个核心模块的优化，FireRedTTS-2在合成效果上实现了全面飞跃。

在多项主客观评测中，FireRedTTS-2都展现出了行业领先水平。无论是从音质、自然度还是稳定性等方面来看，它都为多说话人的对话合成提供了更优的解决方案。目前，其技术报告已在arXiv上发布，感兴趣的朋友还可以通过专用Demo和代码链接亲自体验这一先进技术的魅力。

FireRedTTS-2模型的强大功能

1.自然度极高，细节把握精准

FireRedTTS-2最显著的特点之一就是合成的自然度。它就像一位经验丰富的配音演员，能够精准把握重音、情绪和停顿等细节，让合成出来的语音音质自然流畅，仿佛是真人对话一般。这种自然度极大地提升了音频的听感，让听众更容易沉浸其中。

2.支持音色克隆，开源领域竞争力强

与一些闭源的对话生成模型不同，FireRedTTS-2不仅具备生成高质量播客音频的能力，还支持音色克隆功能。这一功能堪称一大亮点，只需提供每个发音人的一句语音样本，模型就能模仿其音色和说话习惯，自动生成整段对话。这对于创作者来说，无疑提供了更多的创作可能性，也使得FireRedTTS-2在开源对话生成领域具备了很强的竞争力。

3.多语言支持，合成速度与稳定性兼备

在训练过程中，FireRedTTS-2展现出了强大的语言适应能力。它支持多种语言，包括中文、英语、日语、韩语和法语等，能够满足不同语言环境下的对话合成需求。同时，采用低帧率的离散语音编码器，提高了合成的速度与稳定性，让创作过程更加高效流畅。

4.双Transformer架构，语音自然连贯

FireRedTTS-2采用了双Transformer的模型架构，这种架构使得合成语音更加自然、连贯。它就像一个精密的指挥家，能够协调各个语音元素，让它们和谐地组合在一起，呈现出高质量的对话音频。

5.少量数据即可定制音色，快速适应场景

对于很多创作者来说，数据收集往往是一个难题。而FireRedTTS-2只需少量数据即可实现音色定制，能够快速适应不同的应用场景。无论是制作个性化的播客节目，还是为虚拟角色配音，它都能轻松胜任。

FireRedTTS-2的应用场景

FireRedTTS-2的推出，为AI播客和对话合成应用提供了工业级解决方案。它不仅能够帮助创作者更高效地制作出高质量的音频内容，还为行业内外的创新探索打开了新的可能性。

未来，小红书智创音频技术团队表示将持续优化该模型。一方面，增加支持的说话人数和语言种类，让FireRedTTS-2能够覆盖更广泛的用户群体和应用场景；另一方面，探索更多的可控音效插入功能，满足不断增长的市场需求。

项目地址：https://github.com/FireRedTeam/FireRedTTS2

信息来源：FireRedTTS-2模型在github的项目主页内容

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群