2025年8月26日,阿里通义万相团队在著名社交媒体平台“X"的官方帐号上宣布,全新的电影语音转视频模型Wan2.2-S2V即将上线,不仅能生成视频,还能同步生成音频,直接让AI视频“开口说话”甚至“唱歌”!
哈哈,小编认为,这次全新的Wan2.2-S2V模型直接捅破了传统视频生成模型的天花板。
体验地址:阿里通义万相官网入口(wan国内版)
Wan2.2-S2V模型技术突破:
视频音频“同步生成”,告别“后期合成”
传统AI视频模型有个老大难问题:视频和音频得分开做,最后再硬凑到一起。要么是“哑巴视频”,要么是“对不上口型的音频”,效果总差点意思。Wan2.2-S2V直接“打包解决”——视频生成时,音频同步生成,连唱歌的节奏都能和画面完美匹配。团队放出的示例视频里,AI角色边唱边跳,口型、表情、音乐全对得上,这波“多模态融合”技术,堪称行业里程碑。
行业影响:内容创作者要“偷着乐”了
对创作者来说,这模型简直是“效率神器”。以前做个带音乐的视频,得先生成画面,再找配音或配乐,最后调口型,耗时又麻烦。现在用Wan2.2-S2V,一步到位,视频和音频自动对齐,连“对口型”的功夫都省了。更重要的是,它让“沉浸式内容”的门槛大幅降低——无论是短视频、动画,还是虚拟偶像表演,都能更真实、更有感染力。
简单说,阿里这次预告的Wan2.2-S2V模型,不仅是一次技术升级,更是在重新定义“AI视频生成”的标准。当视频和音频能“无缝配合”,AI内容的真实感和表现力,怕是要让观众分不清“真假”了。
毕竟,谁能拒绝一个“会唱歌、会跳舞”的AI视频呢?
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: