阿里通义实验室首个影视级多模态配音模型Fun-CineForge发布，已正式开源-AITOP100,AI资讯

影视配音的旧难题与新挑战

在影视与动画制作的宏大舞台上，配音宛如一颗璀璨的明珠，为作品赋予了鲜活的生命力。然而，传统AI配音在面对影视、动画这类高标准场景时，却常常陷入困境。

复杂的情绪爆发，如角色愤怒时的声嘶力竭、悲伤时的泣不成声，传统AI配音难以精准捕捉并呈现；精准的口型匹配也是一大难题，角色说话时口型与语音的脱节，让观众瞬间出戏，严重影响了作品的沉浸感。这些瓶颈问题，如同横亘在影视配音发展道路上的巨石，亟待解决。

阿里通义实验室首个影视级多模态配音模型Fun-CineForge

Fun-CineForge：破局者的诞生

就在行业苦苦寻觅解决方案之时，通义实验室带来了曙光。他们正式发布并开源了首个影视级多场景配音多模态大模型——Fun-CineForge。这一模型的诞生，犹如一颗重磅炸弹，在影视配音领域掀起了轩然大波，为解决传统难题带来了新的希望。

Fun-CineForge的四大核心突破

1.口型同步：毫厘之间的精准契合

Fun-CineForge 在口型同步方面展现出了卓越的实力。它通过先进的技术手段，深入分析语音与画面中唇部运动的关系，实现了合成语音与画面唇部运动的高度一致。

无论是快速的对白还是缓慢的独白，模型都能精准预测每个语音音节对应的口型变化，让角色的口型与语音完美同步，仿佛角色真实地在说话，为观众带来了更加真实、自然的观看体验。

2.情绪表达：赋予声音灵魂的温度

情绪是影视作品的灵魂所在，Fun-CineForge 深知这一点。它结合面部形象与指令描述，深入挖掘角色内心的情感世界，为声音赋予了拟人化的情感深度。模型能够敏锐地捕捉文本中的情感信息，同时结合画面中角色的面部表情、肢体动作等细节，综合判断角色的情感状态。

然后，根据这些信息灵活调整语音的音调、语速、音量等参数，使合成语音能够准确传达出角色的喜怒哀乐，让观众能够深刻感受到角色的情感变化，与角色产生强烈的情感共鸣。

3.音色一致性：多角色对话的稳定基石

在复杂的多角色对话场景中，保持特定人物的音色稳定是一个极具挑战性的任务。Fun-CineForge 通过独特的音色建模技术，为每个角色建立了专属的音色模型。

在训练过程中，模型学习了大量不同角色的语音数据，提取出每个角色音色的独特特征，并将其存储在音色模型中。

当进行多人对话配音时，模型能够根据输入的角色信息，精准调用相应的音色模型，确保每个角色的语音都具有独特的音色，并且在整个对话过程中保持音色的一致性。

即使在不同场景、不同情绪下，角色的音色也不会发生明显变化，为观众营造出真实、连贯的多人对话氛围。

4.时间对齐：复杂场景下的精准把控

影视制作中，经常会出现说话人被遮挡或不在画内的情况，这对语音与画面的时间对齐提出了极高的要求。Fun-CineForge 首次引入了“时间模态”，配合视觉（唇形表情）、文本（台词情感）和音频（音色参考）共同建模。

时间模态能够捕捉画面中时间的变化信息，为模型提供精确的时间参考。

即使说话人被遮挡或不在画内，模型也能依靠时间监督目标，将语音在毫秒级精确的时间点切入，确保语音与画面的时间同步。

这种强大的时间对齐能力，使得 Fun-CineForge 能够应对各种复杂的影视场景，为影视制作提供了更加灵活、高效的配音解决方案。

核心技术：

CineDub高质量数据集：数据基石的稳固构建

Fun-CineForge的成功离不开其独有的“数据 + 模型”一体化设计，而CineDub高质量数据集则是这一设计的重要基石。通义实验室配套开源了CineDub自动化数据集构建流程，该流程利用思维链纠错机制，对中英文文本转录进行了精细优化，将转录错率降至1% - 2%左右，说话人分离错误率也大幅降至1.2%。

这一高质量的数据集为模型的训练提供了丰富、准确的数据支持，使得模型能够学习到更加真实、多样的语音特征，从而提高了模型的性能和准确性。

四模态融合架构：多元信息的深度融合

四模态融合架构是 Fun-CineForge 的另一大核心技术亮点。模型首次引入“时间模态”，与视觉（唇形表情）、文本（台词情感）和音频（音色参考）共同建模。这种多元信息的深度融合，充分发挥了不同模态之间的互补性。

视觉模态提供了角色口型和面部表情的信息，帮助模型实现更精准的口型同步和情绪表达；
文本模态为模型理解台词内容和情感提供了基础；
音频模态提供了音色参考，确保音色的一致性；
时间模态则为模型提供了精确的时间参考，实现了语音与画面的精准同步。

通过这种四模态融合架构，Fun-CineForge 能够全面、深入地理解影视场景中的各种信息，从而生成更加优质、自然的配音。

卓越表现：填补行业空白的新标杆

实验数据是最有力的证明。Fun-CineForge 在词错率（WER/CER）、唇部同步度（LSE - C/D）及音色相似度等关键指标上均显著优于 DeepDubber - V1 等基线模型。尤其值得关注的是，该模型首次实现了对双人及多人对话场景的精准支持，在 30 秒以内的视频片段中表现出极强的鲁棒性。

这一卓越表现，不仅填补了行业在多人对话配音方面的空白，也为影视制作提供了更加高效、优质的配音解决方案，推动了影视配音行业的发展和进步。

Fun-CineForge切实解决了口型对不准、情绪不到位等传统配音痛点。通过开源模型与高质量数据集，它为影视制作提供了更高效、低成本的解决方案，有望成为后期制作环节的实用新工具。