通义万相Wan2.1：阿里云开源视频生成AI模型，日更不是梦-AITOP100,AI资讯

2 月 25 日晚上，通义宣布开源它最新的通义万相大模型 Wan2.1。这个 Wan2.1 可是专门用来生成高质量视频的 AI 模型，它在处理复杂动作、还原真实物理规律、让视频有电影质感，还有更好地按照指令做事这些方面，表现都特别好，成了创作者、开发者还有企业用户在 AI 时代很喜欢用的工具。

通义万相Wan2.1官网

新手快速上手指南：

访问通义万相官网首页。
在左侧栏目中，选择“视频生成”。
进一步选择“文生视频”。
找到并选择“文生视频2.1极速”或“文生视频2.1专业”这两个全新升级的创作模型。
开始您的视频创作之旅！

通义万相Wan2.1模型地址：【点击使用】

跑一下测试效果

1，复杂动作捕捉，镜头下的表现

场景描述：

滑板公园内，一位活力四溢的滑板少年正上演极限表演。他身着宽松T恤与短裤，头戴棒球帽，尽显青春风采。镜头紧随其后，精准捕捉他自高台飞驰而下，平稳落地的精彩瞬间。阳光洒落，为这场表演增添了一抹亮丽的光彩。

通义万相复杂动作捕捉，镜头下的表现

2.现实物理规律，真实还原

场景描述

Prompt：两车相撞，慢动作碰撞瞬

两辆汽车碰撞

Prompt：一个猛男正在打铁，用锤子敲击，火花四溅。镜头从铁匠的手部特写开始拉远

铁匠手持锤子敲击

3，一键生成艺术字，支持中文和英文

通义万相一键生成艺术字

4，质感还原，转换风格

场景描述

Prompt：一个巨大的眼球虹膜，里面有一群, 梵高风格

一个巨大的眼球虹膜，里面有一群, 梵高风格

若想深入了解更多细节功能，敬请观看昨晚的通义万相开源直播视频，精彩内容不容错过！

视频如下：

Wan2.1 性能测试表现

Wan2.1全新开源，专为处理复杂运动、还原真实物理规律而设计，显著提升影视质感并优化指令遵循。无论您是创作者、开发者还是企业用户，均可按需选择模型与功能，轻松打造高质量视频。此外，万相还引领行业，支持中英文文字特效生成，完美满足广告、短视频等领域的创意需求。

在很权威的 Vbench 评测里，通义万相 Wan2.1 拿了 86.22% 的总分，在排行榜上排第一，把国内外好多有名的视频生成模型都甩在了后面，像 Sora、Minimax、Luma、Gen3 和 Pika 这些。Wan2.1 能这么厉害，是因为它用了主流的 DiT 和线性噪声轨迹 Flow Matching 模式，还通过一系列技术创新，让生成能力有了很大进步。比如说，它自己研发的高效 3D 因果 VAE 模块，能把视频隐空间无损压缩 256 倍，还通过特征缓存机制，能高效地编解码任意长度的视频，同时，推理的时候内存占用还减少了 29%。而且，在单个 A800 GPU 的环境下，视频重建速度比现在最先进的方法快 2.5 倍，性能优势特别明显。

通义万相Wan2.1：技术模块领航视频生成

核心技术创新：

基础范式：采用主流的DiT和线性噪声轨迹Flow Matching，为生成能力奠定坚实基础。
3D因果VAE：自研高效模块，实现256倍无损视频隐空间压缩，大幅提升编码与解码效率。
特征缓存机制：引入创新机制，支持任意长度视频高效处理，实现无限长1080P视频流畅编解码。
内存优化：空间降采样压缩提前，减少29%推理时内存占用，不牺牲性能。

性能表现卓越：

视频VAE实验：在相同硬件环境（单个A800 GPU）下，重建速度比现有最先进方法快2.5倍。
压缩重构质量：在较小模型参数下，实现业内领先的压缩重构质量，高分辨率下性能优势更明显。
通义万相大模型：通过自研技术、可扩展预训练策略、大规模数据链路构建及自动化评估指标，全面提升模型性能，为创作者、开发者和企业用户提供卓越的视频生成体验。

Wan2.1 的视频 Diffusion Transformer 架构

通过 Full Attention 机制，能很好地模拟长时间的时空依赖关系，生成的视频质量高，时间和空间上也很连贯。它的训练方法是分 6 个阶段，从低分辨率图像数据的预训练，慢慢过渡到高分辨率视频数据的训练，最后再用高质量标注数据进行微调，这样就能保证模型在不同分辨率和复杂场景里都表现出色。在处理数据的时候，Wan2.1 设计了四步数据清洗流程，主要看基础维度、视觉质量和运动质量，从乱糟糟的原始数据里选出高质量又多样的数据，让训练更有效。

在优化模型训练和推理效率上

Wan2.1 也用了很多办法。训练的时候，对文本、视频编码模块和 DiT 模块，分别用不同的分布式策略，还能通过高效的策略切换，避免计算重复。在优化显存方面，采用分层的显存优化策略，再结合 PyTorch 显存管理机制，解决显存碎片的问题。推理的时候，用 FSDP 和 2D CP 组合的方法进行多卡分布式加速，还通过量化方法让性能变得更好。

通义万相 Wan2.1 未来部署

现在，通义万相 Wan2.1 已经在 GitHub、Hugging Face 和魔搭社区这些平台开源了，支持多种主流框架。开发者和研究者可以通过 Gradio 快速体验，也可以用 xDiT 并行加速推理来提高效率。同时，这个模型正在加快接入 Diffusers 和 ComfyUI，让一键推理和部署流程更简单，降低开发门槛，不管是快速做原型开发，还是高效进行生产部署，用户都能轻松做到。

Github： https://github.com/Wan-Video
HuggingFace： https://huggingface.co/Wan-AI
在线体验:请访问阿里云通义万相：【点击使用】
阿里魔塔社区入口：【点击登陆】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集