阿里通义发布ThinkSound：揭秘首款支持链式推理的开源音频生成模型-AITOP100,AI资讯

在科技圈，创新技术就像夜空中不断闪烁的新星，总能吸引无数人的目光。近日，阿里语音 AI 团队就扔出了一颗“重磅炸弹”——宣布开源全球首个支持链式推理的音频生成模型ThinkSound，这一消息瞬间在音频技术领域掀起了滔天巨浪，让众多从业者和爱好者都为之沸腾。

ThinkSound

ThinkSound是什么？

ThinkSound是阿里通义实验室推出的全球首个应用思维链（CoT）技术的音频生成模型，并配套开源了 AudioCoT 数据集。它有 ThinkSound-1.3B（13 亿参数）、ThinkSound-724M（7.24 亿参数）、ThinkSound-533M（5.33 亿参数）三个版本。

该模型模拟专业音效师工作逻辑，通过三阶段推理流程实现自动化音效生成，先解析视频内容识别关键物理事件与物体属性，再推导声学属性，最后精准绑定声学参数与视频帧。

在性能表现上十分出色，在 VGGSound 测试集，Fréchet 音频距离降至 34.56，较主流模型 MMAudio 提升 20.1%，时序对齐误差率仅 9.8%，同比降低 37.2%，声音事件判别指标 KLPaSST 与 KLPaNNs 分别达到 1.52 和 1.32，均为同类模型最佳；在 MovieGen Audio Bench 测试中，大幅领先 Meta 的 Movie Gen Audio 模型。

ThinkSound体验地址

开源地址如下：

https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound

体验地址：ThinkSound模型网页版官网入口

传统技术的困局：

咱们先聊聊传统的端到端视频转音频技术。在以往，这项技术就像是一个不太靠谱的舞伴，常常在画面和声音的配合上“掉链子”。它往往忽视了画面细节与声音之间的时空关联，导致生成音频与视觉事件错位。想象一下，你正在看一部精彩的武侠电影，大侠挥剑斩敌，动作干净利落，可音效却姗姗来迟，或者声音的强弱与动作的力度完全不匹配，这得多让人出戏啊！这种“不和谐”极大地影响了观众的视听体验，也让音频生成的质量大打折扣。

ThinkSound

ThinkSound破局：链式推理带来精准“和声”

ThinkSound 的出现，就像是一位技艺高超的音乐指挥家，成功解决了传统技术的难题。它通过引入思维链（Chain-of-Thought）技术，突破了传统视频转音频技术对画面动态捕捉的局限，实现了高保真、强同步的空间音频生成。这一突破，标志着 AI 音频技术从“看图配音”的简单模式，向“结构化理解画面”的跨越式发展迈进了一大步。

ThinkSound 首次将多模态大语言模型与统一音频生成架构巧妙结合，通过一套独特的三阶段推理机制，实现了精准音频合成。

第一阶段：解析画面，构建思维蓝图：系统就像一个敏锐的观察者，首先会仔细解析画面的整体运动和场景语义。比如在一个热闹的集市场景中，它能识别出人群的走动、摊贩的叫卖等动态信息，以及集市这个整体的场景特征，然后生成结构化推理链，为后续的声音生成搭建起清晰的框架。
第二阶段：聚焦声源，雕琢声音细节：接着，系统会把目光聚焦在具体的物体声源区域。还是以集市场景为例，它会锁定摊贩的吆喝声位置，结合前面生成的语义描述，进一步细化声音特征。比如摊贩吆喝的音调、语速、音量等，让声音更加逼真、生动，仿佛就在你耳边响起。
第三阶段：实时交互，满足个性需求：ThinkSound 还支持用户通过自然语言指令进行实时交互编辑。这意味着你可以像一位音频大师一样，对生成的声音进行随心所欲的调整。你可以说“在摊贩吆喝后添加人群的议论声”，系统就会按照你的要求，在合适的位置添加相应的声音；或者你说“降低背景音乐的音量”，它就能把背景音乐调整到合适的水平，让声音更加符合你的需求。

数据支撑：海量样本铸就强大实力

为了支撑模型强大的结构化推理能力，研究团队可是下了大功夫。他们构建了一个包含 2531.8 小时高质量样本 的 AudioCoT 多模态数据集。这个数据集就像是一个巨大的音频宝库，整合了 VGGSound、AudioSet 等来源的丰富音频，涵盖了动物鸣叫、机械运转等各种真实场景音频。

而且，数据集的质量把控非常严格。通过多阶段自动化过滤与人工抽样校验，确保每一个样本都符合高质量标准。更值得一提的是，数据集还特别设计了对象级和指令级样本。这意味着模型可以处理像“提取猫头鹰鸣叫时避免风声干扰”这样复杂的指令，大大提高了模型的实用性和灵活性。

实力验证：实验数据碾压对手

ThinkSound 的实力可不是吹出来的，实验数据就是最好的证明。在 VGGSound 测试集的核心指标上，ThinkSound 较主流方法提升超 15%。在 MovieGen Audio Bench 测试集中，它的表现更是大幅领先 Meta 同类模型。这一系列数据充分展示了 ThinkSound 在音频生成领域的卓越性能和领先地位。

开源共享：开发者们的福音降临

为了让更多的开发者能够受益于这项先进技术，阿里语音 AI 团队非常大方地将 ThinkSound 模型的代码与预训练权重在 GitHub、HuggingFace 及魔搭社区 开源。这意味着开发者们可以免费获取这些资源，根据自己的需求进行二次开发和创新应用。这对于推动音频生成领域的技术普及和发展来说，无疑是一件大好事。

未来发展：拓展应用，重塑声音体验

阿里语音 AI 团队并没有满足于现有的成果，他们透露未来将重点提升模型对复杂声学环境的理解能力。比如在一些嘈杂的工厂环境或者热闹的演唱会现场，模型能够更准确地识别和生成各种声音。

同时，ThinkSound 还将拓展至游戏开发、虚拟现实等沉浸式场景。在游戏开发中，它可以为游戏角色和场景生成更加逼真的音效，让玩家仿佛身临其境；在虚拟现实中，它能营造出更加真实的声音环境，提升用户的沉浸感和体验感。

这项技术不仅为影视音效制作、音频后期处理提供了全新的工具，更可能重新定义人机交互中的声音体验边界。业内专家也指出，ThinkSound 的开源将加速音频生成领域的技术普惠，推动创作者经济向更智能的方向演进。

阿里通义开源的 ThinkSound 模型无疑是音频生成领域的一座里程碑。它以其创新的技术、强大的实力和开源共享的精神，为音频技术的发展注入了新的活力。相信在未来，ThinkSound 将为我们带来更多惊喜，让我们的声音世界变得更加精彩。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

AITOP100平台大赛社群二维码