2025年9月初,小红书智创音频技术团队重磅推出新一代对话合成模型——FireRedTTS-2,这一成果无疑为对话生成技术领域注入了新的活力,标志着该技术迈向了一个新的高度。

FireRedTTS-2直击痛点,解决现有难题
现有的对话合成方案在实际应用中暴露出不少问题,像灵活性差,难以满足多样化的创作需求;发音错误频繁,影响音频质量;说话人切换不稳定,导致对话连贯性大打折扣;韵律自然度不足,听起来生硬不自然。这些问题严重制约了对话合成技术在更广泛场景中的应用。
而小红书此次推出的FireRedTTS-2,正是为了解决这些痛点应运而生。它就像一位技艺精湛的工匠,对现有技术进行了精心打磨和升级,致力于为用户带来更优质、更高效的对话合成体验。
FireRedTTS-2的核心升级,效果显著提升
FireRedTTS-2的出色表现离不开其核心模块的升级。其中,离散语音编码器和文本语音合成模型的改进是关键所在。通过对这两个核心模块的优化,FireRedTTS-2在合成效果上实现了全面飞跃。
在多项主客观评测中,FireRedTTS-2都展现出了行业领先水平。无论是从音质、自然度还是稳定性等方面来看,它都为多说话人的对话合成提供了更优的解决方案。目前,其技术报告已在arXiv上发布,感兴趣的朋友还可以通过专用Demo和代码链接亲自体验这一先进技术的魅力。
FireRedTTS-2模型的强大功能
1.自然度极高,细节把握精准
FireRedTTS-2最显著的特点之一就是合成的自然度。它就像一位经验丰富的配音演员,能够精准把握重音、情绪和停顿等细节,让合成出来的语音音质自然流畅,仿佛是真人对话一般。这种自然度极大地提升了音频的听感,让听众更容易沉浸其中。
2.支持音色克隆,开源领域竞争力强
与一些闭源的对话生成模型不同,FireRedTTS-2不仅具备生成高质量播客音频的能力,还支持音色克隆功能。这一功能堪称一大亮点,只需提供每个发音人的一句语音样本,模型就能模仿其音色和说话习惯,自动生成整段对话。这对于创作者来说,无疑提供了更多的创作可能性,也使得FireRedTTS-2在开源对话生成领域具备了很强的竞争力。
3.多语言支持,合成速度与稳定性兼备
在训练过程中,FireRedTTS-2展现出了强大的语言适应能力。它支持多种语言,包括中文、英语、日语、韩语和法语等,能够满足不同语言环境下的对话合成需求。同时,采用低帧率的离散语音编码器,提高了合成的速度与稳定性,让创作过程更加高效流畅。
4.双Transformer架构,语音自然连贯
FireRedTTS-2采用了双Transformer的模型架构,这种架构使得合成语音更加自然、连贯。它就像一个精密的指挥家,能够协调各个语音元素,让它们和谐地组合在一起,呈现出高质量的对话音频。
5.少量数据即可定制音色,快速适应场景
对于很多创作者来说,数据收集往往是一个难题。而FireRedTTS-2只需少量数据即可实现音色定制,能够快速适应不同的应用场景。无论是制作个性化的播客节目,还是为虚拟角色配音,它都能轻松胜任。
FireRedTTS-2的应用场景
FireRedTTS-2的推出,为AI播客和对话合成应用提供了工业级解决方案。它不仅能够帮助创作者更高效地制作出高质量的音频内容,还为行业内外的创新探索打开了新的可能性。
未来,小红书智创音频技术团队表示将持续优化该模型。一方面,增加支持的说话人数和语言种类,让FireRedTTS-2能够覆盖更广泛的用户群体和应用场景;另一方面,探索更多的可控音效插入功能,满足不断增长的市场需求。
项目地址:https://github.com/FireRedTeam/FireRedTTS2
信息来源:FireRedTTS-2模型在github的项目主页内容
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









