• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

通义万相VACE开源:AI视频编辑迎来平民时代!告别复杂操作,人人都能成视频大神!

通义万相VACE开源:AI视频编辑迎来平民时代!告别复杂操作,人人都能成视频大神!
AI TOP100
2025-05-15 09:36:07

最近,阿里昨天晚上宣布通义万相VACE开源啦!这消息一出来,视频编辑领域瞬间炸开了锅,相当于来了一场重大的技术革新。

版本支持多样,创作体验升级

这次开源的VACE有两个版本,分别是Wan2.1 - VACE - 1.3B和Wan2.1 - VACE - 14B。Wan2.1 - VACE - 1.3B能支持480P分辨率的视频处理,而Wan2.1 - VACE - 14B就更厉害了,支持480P和720P两种分辨率。VACE的出现,就像给视频创作者们送上了一份超级大礼包,带来了一站式的视频创作体验。以前,创作者们得在不同模型或者工具之间来回切换,才能完成文生视频、图像参考生成、局部编辑和视频扩展这些任务,麻烦得很。现在有了VACE,这些事儿在一个平台上就能搞定,创作效率和灵活性一下子就提高了不少。

通义万相VACE开源

可控重绘超厉害,多模态输入是核心

VACE到底厉害在哪儿呢?它的可控重绘能力绝对是一大亮点。它可以根据人体姿态、运动光流、结构保持、空间运动、着色这些条件来生成视频,还能基于主体和背景参考来生成视频。这就意味着,视频生成之后,要是想调整人物姿态、动作轨迹或者场景布局啥的,都不再是难题。VACE之所以这么牛,背后靠的是它的多模态输入机制。它构建了一个超厉害的统一输入系统,把文本、图像、视频、Mask和控制信号都整合到了一起。

先说说图像输入,通义万相VACE支持用物体参考图或者视频帧作为输入。要是输入的是视频,用户还能通过抹除、局部扩展这些操作,让VACE重新生成视频。对于局部区域,用户可以用0/1二值信号来指定编辑区域,想编辑哪儿就编辑哪儿。控制信号方面,VACE支持深度图、光流、布局、灰度、线稿和姿态等多种类型,功能相当全面。

功能多样超强大,组合拓展创意足

VACE的功能可不止这些。它不仅能对视频里指定的区域进行内容替换、增加或者删除,还能在时间维度上,根据任意片段或者首尾帧把整个视频时长补全。在空间维度上,它支持对画面边缘或者背景区域进行扩展生成,比如背景替换。在保留主体不变的情况下,按照Prompt就能更换背景环境。靠着强大的多模态输入模块和Wan2.1的生成能力,VACE把传统专家模型能实现的功能都轻松拿捏了,像图像参考能力、视频重绘能力、局部编辑能力这些都不在话下。而且,VACE还支持多种单任务能力自由组合,打破了传统专家模型各自为政的协作瓶颈。作为一个统一模型,它能自然地把文生视频、姿态控制、背景替换、局部编辑这些原子能力融合在一起,不用再为了单一功能专门训练新模型了。

VACE的这种灵活组合机制,不仅让创作流程变得简单多了,还极大地拓展了AI视频生成的创意边界。比如说,把图片参考和主体重塑功能组合起来,就能实现视频中物体的替换;把运动控制和首帧参考功能组合起来,就能让静态图片动起来,实现姿态控制;把图片参考、首帧参考、背景扩展和时长延展功能组合起来,能把竖版图变成横屏视频,还能在视频里加入参考图片中的元素。

创新输入范式,技术难题巧解决

为了把四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态分析总结好,VACE提出了一个灵活统一的输入范式——视频条件单元VCU。VCU把多模态的各类上下文输入总结成了文本、帧序列、mask序列这三大形态,在输入形式上把4类视频生成与编辑任务都统一起来了。VCU的帧序列和Mask序列在数学上还能相互叠加,这就为多任务的自由组合创造了条件。

在技术实现这块儿,VACE遇到了一个难题,就是怎么把多模态输入统一编码成扩散Transformer能处理的token序列。VACE想了个办法,对VCU输入中的Frame序列进行概念解耦,把它分成了两部分:一部分是需要原封不动保留的RGB像素,也就是不变帧序列;另一部分是需要根据提示重新生成的内容,也就是可变帧序列。然后,分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码。可变帧和不变帧通过VAE被编码到和DiT模型噪声维度一样的空间,通道数是16;mask序列则通过变形和采样操作,被映射到时空维度一致、通道数是64的隐空间特征。最后,把Frame序列和mask序列的隐空间特征合并起来,再通过可训练参数映射成DiT的token序列。

训练策略巧对比,模型性能有提升

在训练策略上,VACE对比了全局微调和上下文适配器微调这两种方案。全局微调是训练全部DiT参数,这样推理速度会更快;上下文适配器微调方案是固定原始的基模型参数,只选择性地复制并训练一些原始Transformer层作为额外的适配器。实验结果显示,这两种方案在验证损失上差别不大,但是上下文适配器微调收敛速度更快,还能避免基础能力丢失的风险。所以,这次开源版本就采用了上下文适配器微调方法进行训练。从这次发布的VACE系列模型定量评测结果来看,和1.3Bpreview版本比起来,模型在多个关键指标上都有了明显提升。

不得不说,VACE的开源给视频编辑领域带来了新的活力和可能,以后视频创作说不定会变得更简单、更有创意啦!

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 通义万相:阿里云AI绘画/视频创作工具
  • VACE:阿里通义视频生成与编辑模型
  • Wan:通义万相国际版
相关资讯
  • QQ音乐牵手腾讯元宝:模糊搜歌、场景配乐、划线即播玩出新花样

  • 首个支持物理交互的MCP Server,百度小度正式上线

  • Kimi Playground震撼上线:开启AI工具调用新时代,开发者福音来了!

  • 百度推出Tizzy.ai:无广告智能搜索,影视资源与便捷服务一键畅享

  • 智谱清影生视频重磅更新:视频创作迎来“超进化”

热点资讯

AIGC大赛:北京动画周48小时AIGC原创动画挑战赛,邀您共赴创意盛宴!

8天前
AIGC大赛:北京动画周48小时AIGC原创动画挑战赛,邀您共赴创意盛宴!

马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

4天前
马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

2天前
中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

8天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

会说话的AI编程工具?字节跳动TRAE2.0将加入语音交互

2天前
会说话的AI编程工具?字节跳动TRAE2.0将加入语音交互
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有