2 月 25 日晚上,通义宣布开源它最新的通义万相大模型 Wan2.1。这个 Wan2.1 可是专门用来生成高质量视频的 AI 模型,它在处理复杂动作、还原真实物理规律、让视频有电影质感,还有更好地按照指令做事这些方面,表现都特别好,成了创作者、开发者还有企业用户在 AI 时代很喜欢用的工具。
通义万相Wan2.1官网
新手快速上手指南:
- 访问通义万相官网首页。
- 在左侧栏目中,选择“视频生成”。
- 进一步选择“文生视频”。
- 找到并选择“文生视频2.1极速”或“文生视频2.1专业”这两个全新升级的创作模型。
- 开始您的视频创作之旅!
通义万相Wan2.1模型地址:【点击使用】
跑一下测试效果
1,复杂动作捕捉,镜头下的表现
场景描述:
滑板公园内,一位活力四溢的滑板少年正上演极限表演。他身着宽松T恤与短裤,头戴棒球帽,尽显青春风采。镜头紧随其后,精准捕捉他自高台飞驰而下,平稳落地的精彩瞬间。阳光洒落,为这场表演增添了一抹亮丽的光彩。
2.现实物理规律,真实还原
场景描述
Prompt:两车相撞,慢动作碰撞瞬
Prompt:一个猛男正在打铁,用锤子敲击,火花四溅。镜头从铁匠的手部特写开始拉远
3,一键生成艺术字,支持中文和英文
4,质感还原,转换风格
场景描述
Prompt:一个巨大的眼球虹膜,里面有一群, 梵高风格
若想深入了解更多细节功能,敬请观看昨晚的通义万相开源直播视频,精彩内容不容错过!
视频如下:
Wan2.1 性能测试表现
Wan2.1全新开源,专为处理复杂运动、还原真实物理规律而设计,显著提升影视质感并优化指令遵循。无论您是创作者、开发者还是企业用户,均可按需选择模型与功能,轻松打造高质量视频。此外,万相还引领行业,支持中英文文字特效生成,完美满足广告、短视频等领域的创意需求。
在很权威的 Vbench 评测里,通义万相 Wan2.1 拿了 86.22% 的总分,在排行榜上排第一,把国内外好多有名的视频生成模型都甩在了后面,像 Sora、Minimax、Luma、Gen3 和 Pika 这些。Wan2.1 能这么厉害,是因为它用了主流的 DiT 和线性噪声轨迹 Flow Matching 模式,还通过一系列技术创新,让生成能力有了很大进步。比如说,它自己研发的高效 3D 因果 VAE 模块,能把视频隐空间无损压缩 256 倍,还通过特征缓存机制,能高效地编解码任意长度的视频,同时,推理的时候内存占用还减少了 29%。而且,在单个 A800 GPU 的环境下,视频重建速度比现在最先进的方法快 2.5 倍,性能优势特别明显。
通义万相Wan2.1:技术模块领航视频生成
核心技术创新:
- 基础范式: 采用主流的DiT和线性噪声轨迹Flow Matching,为生成能力奠定坚实基础。
- 3D因果VAE: 自研高效模块,实现256倍无损视频隐空间压缩,大幅提升编码与解码效率。
- 特征缓存机制: 引入创新机制,支持任意长度视频高效处理,实现无限长1080P视频流畅编解码。
- 内存优化: 空间降采样压缩提前,减少29%推理时内存占用,不牺牲性能。
性能表现卓越:
- 视频VAE实验: 在相同硬件环境(单个A800 GPU)下,重建速度比现有最先进方法快2.5倍。
- 压缩重构质量: 在较小模型参数下,实现业内领先的压缩重构质量,高分辨率下性能优势更明显。
- 通义万相大模型: 通过自研技术、可扩展预训练策略、大规模数据链路构建及自动化评估指标,全面提升模型性能,为创作者、开发者和企业用户提供卓越的视频生成体验。
Wan2.1 的视频 Diffusion Transformer 架构
通过 Full Attention 机制,能很好地模拟长时间的时空依赖关系,生成的视频质量高,时间和空间上也很连贯。它的训练方法是分 6 个阶段,从低分辨率图像数据的预训练,慢慢过渡到高分辨率视频数据的训练,最后再用高质量标注数据进行微调,这样就能保证模型在不同分辨率和复杂场景里都表现出色。在处理数据的时候,Wan2.1 设计了四步数据清洗流程,主要看基础维度、视觉质量和运动质量,从乱糟糟的原始数据里选出高质量又多样的数据,让训练更有效。
在优化模型训练和推理效率上
Wan2.1 也用了很多办法。训练的时候,对文本、视频编码模块和 DiT 模块,分别用不同的分布式策略,还能通过高效的策略切换,避免计算重复。在优化显存方面,采用分层的显存优化策略,再结合 PyTorch 显存管理机制,解决显存碎片的问题。推理的时候,用 FSDP 和 2D CP 组合的方法进行多卡分布式加速,还通过量化方法让性能变得更好。
通义万相 Wan2.1 未来部署
现在,通义万相 Wan2.1 已经在 GitHub、Hugging Face 和魔搭社区这些平台开源了,支持多种主流框架。开发者和研究者可以通过 Gradio 快速体验,也可以用 xDiT 并行加速推理来提高效率。同时,这个模型正在加快接入 Diffusers 和 ComfyUI,让一键推理和部署流程更简单,降低开发门槛,不管是快速做原型开发,还是高效进行生产部署,用户都能轻松做到。
- Github: https://github.com/Wan-Video
- HuggingFace: https://huggingface.co/Wan-AI
- 在线体验:请访问阿里云通义万相:【点击使用】
- 阿里魔塔社区入口:【点击登陆】