• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA
AI TOP100
4天前

梅尔频谱:该退休了

音频生成领域有个"老伙计"叫梅尔频谱,用了十几年。它的工作是把声波转换成频谱表示,方便模型处理。但问题是:转换过程有信息损耗,就像把高清照片压缩成缩略图,细节丢了。

美团LongCat团队说:既然有损耗,那就别转换了,直接在波形上建模。

这就是LongCat-AudioDiT的核心创新:彻底告别梅尔频谱,在波形潜空间直接生成。

模型地址:美团LongCat官网

美团开源LongCat-AudioDiT

两段式架构:极简即极强

传统TTS系统是"预测声学特征→神经声码器→波形",三个阶段串联,误差逐级累积。LongCat-AudioDiT砍掉中间环节,只剩两段:

Wav-VAE(波形变分自编码器) 把24kHz波形压缩2000倍,但通过非参数捷径分支保留原始时频结构。压缩不丢信息,重建不失真。

语义增强DiT(扩散Transformer) 融合UMT5文本编码器的原始词嵌入,补齐高层语义丢失的音素细节。生成的语音不仅像,而且听得懂。

音色漂移:终于治好了

流匹配TTS有个顽疾:生成过程中说话人的音色会"漂移",说着说着声音变了。

LongCat团队找到病因:训练-推理不匹配。训练时模型知道完整音频,推理时只能看到开头,后面的生成是"盲猜"。

解决方案是双重约束机制:在推理中强制重置提示区域隐变量,让模型"记住"说话人的音色特征。彻底根治漂移问题。

APG:比CFG更聪明的引导方式

传统无分类器引导(CFG)会放大引导信号,但也会引入噪声,导致频谱"过饱和"——听起来像"机器人说话"。

自适应投影引导(APG)的做法是:只筛选有益的引导分量,抑制导致劣化的信号。结果是在不牺牲音质的前提下,显著提升自然度。

0.818相似度:SOTA新标杆

Seed基准测试是语音克隆的"奥林匹克"。LongCat-AudioDiT交出的成绩单:

  • Seed-ZH测试集:相似度0.818
  • Seed-Hard难句测试集:相似度0.797
  • 英文WER:1.50%
  • 中文难句CER:6.04%

全部超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。

更惊人的是:LongCat仅通过ASR转写预训练数据单阶段训练,就打败了多阶段训练的对手。极简架构,极致性能。

开源:让行业一起进化

美团没有把技术锁在保险柜,而是选择全开放:

  • 论文:技术细节完整披露
  • 代码:GitHub直接可用: https://github.com/meituan-longcat/LongCat-AudioDiT
  • 模型权重:HuggingFace免费下载: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

这是中国企业在AI开源领域的又一贡献。端到端架构成为新范式,梅尔频谱成为历史,整个行业一起进化。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 美团LongCat
相关资讯
  • AITOP100上线“Banana 2.0 Skill”,教你如何在QClaw/AutoClaw等平台一键安装调用

  • AI内容共创计划3月奖励公示|KOL专属福利来袭,Seedance2.0白名单优先解锁!

  • 中国广电联合会演员委员会严正声明:AI换脸、声纹克隆侵权行为将被全面追责

  • 国家广电总局人才交流中心将举办网络微短剧、AI漫剧规范管理及创新研讨班

  • 美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

热点资讯

美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

4天前
美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

字节Seedance 2.0全面开放API:多模态视频生成进入"生产级"时代

4天前
字节Seedance 2.0全面开放API:多模态视频生成进入"生产级"时代

千问AI眼镜迎来首次OTA升级:首创AI克隆同传,打通支付宝淘宝生态

4天前
千问AI眼镜迎来首次OTA升级:首创AI克隆同传,打通支付宝淘宝生态

豆包日均Token破120万亿:国产大模型调用量首超海外,AI进入应用爆发期

4天前
豆包日均Token破120万亿:国产大模型调用量首超海外,AI进入应用爆发期

中国广电联合会演员委员会严正声明:AI换脸、声纹克隆侵权行为将被全面追责

3天前
中国广电联合会演员委员会严正声明:AI换脸、声纹克隆侵权行为将被全面追责
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有