• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

通义万相VACE开源:AI视频编辑迎来平民时代!告别复杂操作,人人都能成视频大神!

通义万相VACE开源:AI视频编辑迎来平民时代!告别复杂操作,人人都能成视频大神!
AI TOP100
2025-05-15 09:36:07

最近,阿里昨天晚上宣布通义万相VACE开源啦!这消息一出来,视频编辑领域瞬间炸开了锅,相当于来了一场重大的技术革新。

体验地址1:通义万相官网地址

体验地址2:通义万相VACE网页版入口

版本支持多样,创作体验升级

这次开源的VACE有两个版本,分别是Wan2.1 - VACE - 1.3B和Wan2.1 - VACE - 14B。Wan2.1 - VACE - 1.3B能支持480P分辨率的视频处理,而Wan2.1 - VACE - 14B就更厉害了,支持480P和720P两种分辨率。VACE的出现,就像给视频创作者们送上了一份超级大礼包,带来了一站式的视频创作体验。以前,创作者们得在不同模型或者工具之间来回切换,才能完成文生视频、图像参考生成、局部编辑和视频扩展这些任务,麻烦得很。现在有了VACE,这些事儿在一个平台上就能搞定,创作效率和灵活性一下子就提高了不少。

通义万相VACE开源

可控重绘超厉害,多模态输入是核心

VACE到底厉害在哪儿呢?它的可控重绘能力绝对是一大亮点。它可以根据人体姿态、运动光流、结构保持、空间运动、着色这些条件来生成视频,还能基于主体和背景参考来生成视频。这就意味着,视频生成之后,要是想调整人物姿态、动作轨迹或者场景布局啥的,都不再是难题。VACE之所以这么牛,背后靠的是它的多模态输入机制。它构建了一个超厉害的统一输入系统,把文本、图像、视频、Mask和控制信号都整合到了一起。

先说说图像输入,通义万相VACE支持用物体参考图或者视频帧作为输入。要是输入的是视频,用户还能通过抹除、局部扩展这些操作,让VACE重新生成视频。对于局部区域,用户可以用0/1二值信号来指定编辑区域,想编辑哪儿就编辑哪儿。控制信号方面,VACE支持深度图、光流、布局、灰度、线稿和姿态等多种类型,功能相当全面。

功能多样超强大,组合拓展创意足

VACE的功能可不止这些。它不仅能对视频里指定的区域进行内容替换、增加或者删除,还能在时间维度上,根据任意片段或者首尾帧把整个视频时长补全。在空间维度上,它支持对画面边缘或者背景区域进行扩展生成,比如背景替换。在保留主体不变的情况下,按照Prompt就能更换背景环境。靠着强大的多模态输入模块和Wan2.1的生成能力,VACE把传统专家模型能实现的功能都轻松拿捏了,像图像参考能力、视频重绘能力、局部编辑能力这些都不在话下。而且,VACE还支持多种单任务能力自由组合,打破了传统专家模型各自为政的协作瓶颈。作为一个统一模型,它能自然地把文生视频、姿态控制、背景替换、局部编辑这些原子能力融合在一起,不用再为了单一功能专门训练新模型了。

VACE的这种灵活组合机制,不仅让创作流程变得简单多了,还极大地拓展了AI视频生成的创意边界。比如说,把图片参考和主体重塑功能组合起来,就能实现视频中物体的替换;把运动控制和首帧参考功能组合起来,就能让静态图片动起来,实现姿态控制;把图片参考、首帧参考、背景扩展和时长延展功能组合起来,能把竖版图变成横屏视频,还能在视频里加入参考图片中的元素。

创新输入范式,技术难题巧解决

为了把四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态分析总结好,VACE提出了一个灵活统一的输入范式——视频条件单元VCU。VCU把多模态的各类上下文输入总结成了文本、帧序列、mask序列这三大形态,在输入形式上把4类视频生成与编辑任务都统一起来了。VCU的帧序列和Mask序列在数学上还能相互叠加,这就为多任务的自由组合创造了条件。

在技术实现这块儿,VACE遇到了一个难题,就是怎么把多模态输入统一编码成扩散Transformer能处理的token序列。VACE想了个办法,对VCU输入中的Frame序列进行概念解耦,把它分成了两部分:一部分是需要原封不动保留的RGB像素,也就是不变帧序列;另一部分是需要根据提示重新生成的内容,也就是可变帧序列。然后,分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码。可变帧和不变帧通过VAE被编码到和DiT模型噪声维度一样的空间,通道数是16;mask序列则通过变形和采样操作,被映射到时空维度一致、通道数是64的隐空间特征。最后,把Frame序列和mask序列的隐空间特征合并起来,再通过可训练参数映射成DiT的token序列。

训练策略巧对比,模型性能有提升

在训练策略上,VACE对比了全局微调和上下文适配器微调这两种方案。全局微调是训练全部DiT参数,这样推理速度会更快;上下文适配器微调方案是固定原始的基模型参数,只选择性地复制并训练一些原始Transformer层作为额外的适配器。实验结果显示,这两种方案在验证损失上差别不大,但是上下文适配器微调收敛速度更快,还能避免基础能力丢失的风险。所以,这次开源版本就采用了上下文适配器微调方法进行训练。从这次发布的VACE系列模型定量评测结果来看,和1.3Bpreview版本比起来,模型在多个关键指标上都有了明显提升。

不得不说,VACE的开源给视频编辑领域带来了新的活力和可能,以后视频创作说不定会变得更简单、更有创意啦!

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • VACE
  • Wan
  • 通义万相
相关资讯
  • 即梦AI正式上线火山引擎:企业级AI创意工具开放API,三折优惠助力「创意生产线」

  • 小白也能做!用Nano Banana秒出专属手办图,免费教程附提示词模板

  • Nano Banana出图比例自由了!最新的「垫图大法」解决此类问题

  • ElevenLabs音效模型V2重磅升级:长片段、无缝循环与高保真音频

  • 腾讯混元Voyager世界模型正式开源:业界首个支持原生3D重建的超长漫游AI模型

热点资讯

谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

6天前
谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

8天前
Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

5天前
重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

6天前
Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互

2天前
阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有