通义万相VACE开源：AI视频编辑迎来平民时代！告别复杂操作，人人都能成视频大神！-AITOP100,AI资讯

最近，阿里昨天晚上宣布通义万相VACE开源啦！这消息一出来，视频编辑领域瞬间炸开了锅，相当于来了一场重大的技术革新。

版本支持多样，创作体验升级

这次开源的VACE有两个版本，分别是Wan2.1 - VACE - 1.3B和Wan2.1 - VACE - 14B。Wan2.1 - VACE - 1.3B能支持480P分辨率的视频处理，而Wan2.1 - VACE - 14B就更厉害了，支持480P和720P两种分辨率。VACE的出现，就像给视频创作者们送上了一份超级大礼包，带来了一站式的视频创作体验。以前，创作者们得在不同模型或者工具之间来回切换，才能完成文生视频、图像参考生成、局部编辑和视频扩展这些任务，麻烦得很。现在有了VACE，这些事儿在一个平台上就能搞定，创作效率和灵活性一下子就提高了不少。

可控重绘超厉害，多模态输入是核心

VACE到底厉害在哪儿呢？它的可控重绘能力绝对是一大亮点。它可以根据人体姿态、运动光流、结构保持、空间运动、着色这些条件来生成视频，还能基于主体和背景参考来生成视频。这就意味着，视频生成之后，要是想调整人物姿态、动作轨迹或者场景布局啥的，都不再是难题。VACE之所以这么牛，背后靠的是它的多模态输入机制。它构建了一个超厉害的统一输入系统，把文本、图像、视频、Mask和控制信号都整合到了一起。

先说说图像输入，通义万相VACE支持用物体参考图或者视频帧作为输入。要是输入的是视频，用户还能通过抹除、局部扩展这些操作，让VACE重新生成视频。对于局部区域，用户可以用0/1二值信号来指定编辑区域，想编辑哪儿就编辑哪儿。控制信号方面，VACE支持深度图、光流、布局、灰度、线稿和姿态等多种类型，功能相当全面。

功能多样超强大，组合拓展创意足

VACE的功能可不止这些。它不仅能对视频里指定的区域进行内容替换、增加或者删除，还能在时间维度上，根据任意片段或者首尾帧把整个视频时长补全。在空间维度上，它支持对画面边缘或者背景区域进行扩展生成，比如背景替换。在保留主体不变的情况下，按照Prompt就能更换背景环境。靠着强大的多模态输入模块和Wan2.1的生成能力，VACE把传统专家模型能实现的功能都轻松拿捏了，像图像参考能力、视频重绘能力、局部编辑能力这些都不在话下。而且，VACE还支持多种单任务能力自由组合，打破了传统专家模型各自为政的协作瓶颈。作为一个统一模型，它能自然地把文生视频、姿态控制、背景替换、局部编辑这些原子能力融合在一起，不用再为了单一功能专门训练新模型了。

VACE的这种灵活组合机制，不仅让创作流程变得简单多了，还极大地拓展了AI视频生成的创意边界。比如说，把图片参考和主体重塑功能组合起来，就能实现视频中物体的替换；把运动控制和首帧参考功能组合起来，就能让静态图片动起来，实现姿态控制；把图片参考、首帧参考、背景扩展和时长延展功能组合起来，能把竖版图变成横屏视频，还能在视频里加入参考图片中的元素。

创新输入范式，技术难题巧解决

为了把四类常见任务（文生视频、图生视频、视频生视频、局部视频生视频）的输入形态分析总结好，VACE提出了一个灵活统一的输入范式——视频条件单元VCU。VCU把多模态的各类上下文输入总结成了文本、帧序列、mask序列这三大形态，在输入形式上把4类视频生成与编辑任务都统一起来了。VCU的帧序列和Mask序列在数学上还能相互叠加，这就为多任务的自由组合创造了条件。

在技术实现这块儿，VACE遇到了一个难题，就是怎么把多模态输入统一编码成扩散Transformer能处理的token序列。VACE想了个办法，对VCU输入中的Frame序列进行概念解耦，把它分成了两部分：一部分是需要原封不动保留的RGB像素，也就是不变帧序列；另一部分是需要根据提示重新生成的内容，也就是可变帧序列。然后，分别对这三类输入（可变帧、不变帧、Mask）进行隐空间编码。可变帧和不变帧通过VAE被编码到和DiT模型噪声维度一样的空间，通道数是16；mask序列则通过变形和采样操作，被映射到时空维度一致、通道数是64的隐空间特征。最后，把Frame序列和mask序列的隐空间特征合并起来，再通过可训练参数映射成DiT的token序列。

训练策略巧对比，模型性能有提升

在训练策略上，VACE对比了全局微调和上下文适配器微调这两种方案。全局微调是训练全部DiT参数，这样推理速度会更快；上下文适配器微调方案是固定原始的基模型参数，只选择性地复制并训练一些原始Transformer层作为额外的适配器。实验结果显示，这两种方案在验证损失上差别不大，但是上下文适配器微调收敛速度更快，还能避免基础能力丢失的风险。所以，这次开源版本就采用了上下文适配器微调方法进行训练。从这次发布的VACE系列模型定量评测结果来看，和1.3Bpreview版本比起来，模型在多个关键指标上都有了明显提升。

不得不说，VACE的开源给视频编辑领域带来了新的活力和可能，以后视频创作说不定会变得更简单、更有创意啦！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集