2026年3月11日,Hume AI在著名社交媒体平台“X”的官方账号上宣布正式开源了其最新力作TADA(Text-Acoustic Dual Alignment)模型。
这款基于大语言模型(LLM)的文本转语音(TTS)系统,凭借其独特的文本-声学双对齐架构,在生成效率、可靠性以及应用场景的拓展上实现了重大突破,为语音生成技术树立了新的标杆。
工具地址:Hume AI官网 (海外网站需要科学上网)
模型地址: https://huggingface.co/collections/HumeAI/tada

零幻觉:TADA模型的核心竞争力
传统LLM-based TTS系统在生成语音时,常常面临一个棘手的问题——token级内容幻觉(hallucination)。这一问题不仅影响了语音内容的准确性,还限制了模型在需要高度精确性的场景中的应用。
而TADA模型通过创新性的文本token与声学表示的1:1严格同步机制,彻底解决了这一难题。在超过1000个测试样本的严格评估中,TADA模型展现出了零内容幻觉的卓越表现,确保了生成语音的准确无误。
性能飞跃:5倍速生成,资源消耗极低
除了零幻觉的显著优势外,TADA模型在性能方面同样令人瞩目。其生成速度比同级别LLM TTS系统快5倍以上,这一提升对于需要实时生成语音的应用场景来说至关重要。
同时,TADA模型在资源消耗上也表现出色,每秒音频仅需2-3帧计算资源,远低于传统方案所需的12.5至75帧。这一特性使得TADA模型能够在手机、边缘设备等低功耗硬件上实现本地推理,无需依赖云端服务器,大大拓宽了模型的应用范围。
多语言支持与超长音频生成
TADA模型的另一大亮点是其多语言支持能力。基于Llama3.23B参数规模的多语言版本,TADA能够轻松应对包括中文在内的多种语言需求。同时,模型还提供了1B(主要针对英语)和3B多语言预训练模型,以满足不同用户的需求。
在音频生成长度方面,TADA同样表现出色。采用2048token的上下文窗口,能够一次性生成约700秒的连续音频,这一水平远超传统方案在相同token限制下仅能支持的约70秒,为需要长时间语音生成的应用场景提供了有力支持。
同步转录:零额外延迟的文字输出
除了上述优势外,TADA模型还创新性地引入了同步转录功能。这一功能使得模型在生成语音的同时,能够直接输出对应的文本转录,无需额外运行独立的语音识别(ASR)流程。这一特性不仅实现了零额外延迟的文字输出,还大大简化了语音交互、实时字幕以及内容创作等应用场景的工作流程,提升了用户体验。
人类主观评测:自然度与音色相似度名列前茅
在人类主观评测中,TADA模型同样表现出色。其自然度和音色相似度排名位居第二,超越了多个参数规模更大、训练数据更多的系统。这一结果充分证明了TADA模型在语音质量方面的卓越表现,为其在语音生成领域的广泛应用奠定了坚实基础。
结语:
Hume AI开源的TADA模型以其零幻觉、高性能、多语言支持、超长音频生成以及同步转录等创新特性,为语音生成领域带来了全新的发展机遇。随着技术的不断进步和应用场景的持续拓展,我们有理由相信,TADA模型将在未来发挥更加重要的作用,推动语音生成技术迈向新的高度。
对于开发者而言,TADA模型的开源无疑是一个难得的机遇,他们可以基于这一强大平台,开发出更多创新应用,共同推动语音生成技术的繁荣发展。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










