在科技圈,创新技术就像夜空中不断闪烁的新星,总能吸引无数人的目光。近日,阿里语音 AI 团队就扔出了一颗“重磅炸弹”——宣布开源全球首个支持链式推理的音频生成模型ThinkSound,这一消息瞬间在音频技术领域掀起了滔天巨浪,让众多从业者和爱好者都为之沸腾。
ThinkSound是什么?
ThinkSound是阿里通义实验室推出的全球首个应用思维链(CoT)技术的音频生成模型 ,并配套开源了 AudioCoT 数据集。它有 ThinkSound-1.3B(13 亿参数)、ThinkSound-724M(7.24 亿参数)、ThinkSound-533M(5.33 亿参数)三个版本。
该模型模拟专业音效师工作逻辑,通过三阶段推理流程实现自动化音效生成,先解析视频内容识别关键物理事件与物体属性,再推导声学属性,最后精准绑定声学参数与视频帧 。
在性能表现上十分出色,在 VGGSound 测试集,Fréchet 音频距离降至 34.56,较主流模型 MMAudio 提升 20.1%,时序对齐误差率仅 9.8%,同比降低 37.2%,声音事件判别指标 KLPaSST 与 KLPaNNs 分别达到 1.52 和 1.32,均为同类模型最佳;在 MovieGen Audio Bench 测试中,大幅领先 Meta 的 Movie Gen Audio 模型 。
ThinkSound体验地址
开源地址如下:
- https://github.com/FunAudioLLM/ThinkSound
- https://huggingface.co/spaces/FunAudioLLM/ThinkSound
- https://www.modelscope.cn/studios/iic/ThinkSound
体验地址:ThinkSound模型网页版官网入口
传统技术的困局:
咱们先聊聊传统的端到端视频转音频技术。在以往,这项技术就像是一个不太靠谱的舞伴,常常在画面和声音的配合上“掉链子”。它往往忽视了画面细节与声音之间的时空关联,导致生成音频与视觉事件错位。想象一下,你正在看一部精彩的武侠电影,大侠挥剑斩敌,动作干净利落,可音效却姗姗来迟,或者声音的强弱与动作的力度完全不匹配,这得多让人出戏啊!这种“不和谐”极大地影响了观众的视听体验,也让音频生成的质量大打折扣。
ThinkSound破局:链式推理带来精准“和声”
ThinkSound 的出现,就像是一位技艺高超的音乐指挥家,成功解决了传统技术的难题。它通过引入思维链(Chain-of-Thought)技术,突破了传统视频转音频技术对画面动态捕捉的局限,实现了高保真、强同步的空间音频生成。这一突破,标志着 AI 音频技术从“看图配音”的简单模式,向“结构化理解画面”的跨越式发展迈进了一大步。
ThinkSound 首次将多模态大语言模型与统一音频生成架构巧妙结合,通过一套独特的三阶段推理机制,实现了精准音频合成。
- 第一阶段:解析画面,构建思维蓝图:系统就像一个敏锐的观察者,首先会仔细解析画面的整体运动和场景语义。比如在一个热闹的集市场景中,它能识别出人群的走动、摊贩的叫卖等动态信息,以及集市这个整体的场景特征,然后生成结构化推理链,为后续的声音生成搭建起清晰的框架。
- 第二阶段:聚焦声源,雕琢声音细节:接着,系统会把目光聚焦在具体的物体声源区域。还是以集市场景为例,它会锁定摊贩的吆喝声位置,结合前面生成的语义描述,进一步细化声音特征。比如摊贩吆喝的音调、语速、音量等,让声音更加逼真、生动,仿佛就在你耳边响起。
- 第三阶段:实时交互,满足个性需求:ThinkSound 还支持用户通过自然语言指令进行实时交互编辑。这意味着你可以像一位音频大师一样,对生成的声音进行随心所欲的调整。你可以说“在摊贩吆喝后添加人群的议论声”,系统就会按照你的要求,在合适的位置添加相应的声音;或者你说“降低背景音乐的音量”,它就能把背景音乐调整到合适的水平,让声音更加符合你的需求。
数据支撑:海量样本铸就强大实力
为了支撑模型强大的结构化推理能力,研究团队可是下了大功夫。他们构建了一个包含 2531.8 小时高质量样本 的 AudioCoT 多模态数据集。这个数据集就像是一个巨大的音频宝库,整合了 VGGSound、AudioSet 等来源的丰富音频,涵盖了动物鸣叫、机械运转等各种真实场景音频。
而且,数据集的质量把控非常严格。通过多阶段自动化过滤与人工抽样校验,确保每一个样本都符合高质量标准。更值得一提的是,数据集还特别设计了对象级和指令级样本。这意味着模型可以处理像“提取猫头鹰鸣叫时避免风声干扰”这样复杂的指令,大大提高了模型的实用性和灵活性。
实力验证:实验数据碾压对手
ThinkSound 的实力可不是吹出来的,实验数据就是最好的证明。在 VGGSound 测试集的核心指标上,ThinkSound 较主流方法提升超 15%。在 MovieGen Audio Bench 测试集中,它的表现更是大幅领先 Meta 同类模型。这一系列数据充分展示了 ThinkSound 在音频生成领域的卓越性能和领先地位。
开源共享:开发者们的福音降临
为了让更多的开发者能够受益于这项先进技术,阿里语音 AI 团队非常大方地将 ThinkSound 模型的代码与预训练权重在 GitHub、HuggingFace 及魔搭社区 开源。这意味着开发者们可以免费获取这些资源,根据自己的需求进行二次开发和创新应用。这对于推动音频生成领域的技术普及和发展来说,无疑是一件大好事。
未来发展:拓展应用,重塑声音体验
阿里语音 AI 团队并没有满足于现有的成果,他们透露未来将重点提升模型对复杂声学环境的理解能力。比如在一些嘈杂的工厂环境或者热闹的演唱会现场,模型能够更准确地识别和生成各种声音。
同时,ThinkSound 还将拓展至游戏开发、虚拟现实等沉浸式场景。在游戏开发中,它可以为游戏角色和场景生成更加逼真的音效,让玩家仿佛身临其境;在虚拟现实中,它能营造出更加真实的声音环境,提升用户的沉浸感和体验感。
这项技术不仅为影视音效制作、音频后期处理提供了全新的工具,更可能重新定义人机交互中的声音体验边界。业内专家也指出,ThinkSound 的开源将加速音频生成领域的技术普惠,推动创作者经济向更智能的方向演进。
阿里通义开源的 ThinkSound 模型无疑是音频生成领域的一座里程碑。它以其创新的技术、强大的实力和开源共享的精神,为音频技术的发展注入了新的活力。相信在未来,ThinkSound 将为我们带来更多惊喜,让我们的声音世界变得更加精彩。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: