最近,阿里昨天晚上宣布通义万相VACE开源啦!这消息一出来,视频编辑领域瞬间炸开了锅,相当于来了一场重大的技术革新。
版本支持多样,创作体验升级
这次开源的VACE有两个版本,分别是Wan2.1 - VACE - 1.3B和Wan2.1 - VACE - 14B。Wan2.1 - VACE - 1.3B能支持480P分辨率的视频处理,而Wan2.1 - VACE - 14B就更厉害了,支持480P和720P两种分辨率。VACE的出现,就像给视频创作者们送上了一份超级大礼包,带来了一站式的视频创作体验。以前,创作者们得在不同模型或者工具之间来回切换,才能完成文生视频、图像参考生成、局部编辑和视频扩展这些任务,麻烦得很。现在有了VACE,这些事儿在一个平台上就能搞定,创作效率和灵活性一下子就提高了不少。
可控重绘超厉害,多模态输入是核心
VACE到底厉害在哪儿呢?它的可控重绘能力绝对是一大亮点。它可以根据人体姿态、运动光流、结构保持、空间运动、着色这些条件来生成视频,还能基于主体和背景参考来生成视频。这就意味着,视频生成之后,要是想调整人物姿态、动作轨迹或者场景布局啥的,都不再是难题。VACE之所以这么牛,背后靠的是它的多模态输入机制。它构建了一个超厉害的统一输入系统,把文本、图像、视频、Mask和控制信号都整合到了一起。
先说说图像输入,通义万相VACE支持用物体参考图或者视频帧作为输入。要是输入的是视频,用户还能通过抹除、局部扩展这些操作,让VACE重新生成视频。对于局部区域,用户可以用0/1二值信号来指定编辑区域,想编辑哪儿就编辑哪儿。控制信号方面,VACE支持深度图、光流、布局、灰度、线稿和姿态等多种类型,功能相当全面。
功能多样超强大,组合拓展创意足
VACE的功能可不止这些。它不仅能对视频里指定的区域进行内容替换、增加或者删除,还能在时间维度上,根据任意片段或者首尾帧把整个视频时长补全。在空间维度上,它支持对画面边缘或者背景区域进行扩展生成,比如背景替换。在保留主体不变的情况下,按照Prompt就能更换背景环境。靠着强大的多模态输入模块和Wan2.1的生成能力,VACE把传统专家模型能实现的功能都轻松拿捏了,像图像参考能力、视频重绘能力、局部编辑能力这些都不在话下。而且,VACE还支持多种单任务能力自由组合,打破了传统专家模型各自为政的协作瓶颈。作为一个统一模型,它能自然地把文生视频、姿态控制、背景替换、局部编辑这些原子能力融合在一起,不用再为了单一功能专门训练新模型了。
VACE的这种灵活组合机制,不仅让创作流程变得简单多了,还极大地拓展了AI视频生成的创意边界。比如说,把图片参考和主体重塑功能组合起来,就能实现视频中物体的替换;把运动控制和首帧参考功能组合起来,就能让静态图片动起来,实现姿态控制;把图片参考、首帧参考、背景扩展和时长延展功能组合起来,能把竖版图变成横屏视频,还能在视频里加入参考图片中的元素。
创新输入范式,技术难题巧解决
为了把四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态分析总结好,VACE提出了一个灵活统一的输入范式——视频条件单元VCU。VCU把多模态的各类上下文输入总结成了文本、帧序列、mask序列这三大形态,在输入形式上把4类视频生成与编辑任务都统一起来了。VCU的帧序列和Mask序列在数学上还能相互叠加,这就为多任务的自由组合创造了条件。
在技术实现这块儿,VACE遇到了一个难题,就是怎么把多模态输入统一编码成扩散Transformer能处理的token序列。VACE想了个办法,对VCU输入中的Frame序列进行概念解耦,把它分成了两部分:一部分是需要原封不动保留的RGB像素,也就是不变帧序列;另一部分是需要根据提示重新生成的内容,也就是可变帧序列。然后,分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码。可变帧和不变帧通过VAE被编码到和DiT模型噪声维度一样的空间,通道数是16;mask序列则通过变形和采样操作,被映射到时空维度一致、通道数是64的隐空间特征。最后,把Frame序列和mask序列的隐空间特征合并起来,再通过可训练参数映射成DiT的token序列。
训练策略巧对比,模型性能有提升
在训练策略上,VACE对比了全局微调和上下文适配器微调这两种方案。全局微调是训练全部DiT参数,这样推理速度会更快;上下文适配器微调方案是固定原始的基模型参数,只选择性地复制并训练一些原始Transformer层作为额外的适配器。实验结果显示,这两种方案在验证损失上差别不大,但是上下文适配器微调收敛速度更快,还能避免基础能力丢失的风险。所以,这次开源版本就采用了上下文适配器微调方法进行训练。从这次发布的VACE系列模型定量评测结果来看,和1.3Bpreview版本比起来,模型在多个关键指标上都有了明显提升。
不得不说,VACE的开源给视频编辑领域带来了新的活力和可能,以后视频创作说不定会变得更简单、更有创意啦!