梅尔频谱:该退休了
音频生成领域有个"老伙计"叫梅尔频谱,用了十几年。它的工作是把声波转换成频谱表示,方便模型处理。但问题是:转换过程有信息损耗,就像把高清照片压缩成缩略图,细节丢了。
美团LongCat团队说:既然有损耗,那就别转换了,直接在波形上建模。
这就是LongCat-AudioDiT的核心创新:彻底告别梅尔频谱,在波形潜空间直接生成。
模型地址:美团LongCat官网

两段式架构:极简即极强
传统TTS系统是"预测声学特征→神经声码器→波形",三个阶段串联,误差逐级累积。LongCat-AudioDiT砍掉中间环节,只剩两段:
Wav-VAE(波形变分自编码器) 把24kHz波形压缩2000倍,但通过非参数捷径分支保留原始时频结构。压缩不丢信息,重建不失真。
语义增强DiT(扩散Transformer) 融合UMT5文本编码器的原始词嵌入,补齐高层语义丢失的音素细节。生成的语音不仅像,而且听得懂。
音色漂移:终于治好了
流匹配TTS有个顽疾:生成过程中说话人的音色会"漂移",说着说着声音变了。
LongCat团队找到病因:训练-推理不匹配。训练时模型知道完整音频,推理时只能看到开头,后面的生成是"盲猜"。
解决方案是双重约束机制:在推理中强制重置提示区域隐变量,让模型"记住"说话人的音色特征。彻底根治漂移问题。
APG:比CFG更聪明的引导方式
传统无分类器引导(CFG)会放大引导信号,但也会引入噪声,导致频谱"过饱和"——听起来像"机器人说话"。
自适应投影引导(APG)的做法是:只筛选有益的引导分量,抑制导致劣化的信号。结果是在不牺牲音质的前提下,显著提升自然度。
0.818相似度:SOTA新标杆
Seed基准测试是语音克隆的"奥林匹克"。LongCat-AudioDiT交出的成绩单:
- Seed-ZH测试集:相似度0.818
- Seed-Hard难句测试集:相似度0.797
- 英文WER:1.50%
- 中文难句CER:6.04%
全部超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。
更惊人的是:LongCat仅通过ASR转写预训练数据单阶段训练,就打败了多阶段训练的对手。极简架构,极致性能。
开源:让行业一起进化
美团没有把技术锁在保险柜,而是选择全开放:
- 论文:技术细节完整披露
- 代码:GitHub直接可用: https://github.com/meituan-longcat/LongCat-AudioDiT
- 模型权重:HuggingFace免费下载: https://huggingface.co/meituan-longcat/LongCat-AudioDiT
这是中国企业在AI开源领域的又一贡献。端到端架构成为新范式,梅尔频谱成为历史,整个行业一起进化。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










