• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

通义万相Wan2.1:阿里云开源视频生成AI模型,日更不是梦

通义万相Wan2.1:阿里云开源视频生成AI模型,日更不是梦
AI TOP100
2025-02-26 09:37:32

2 月 25 日晚上,通义宣布开源它最新的通义万相大模型 Wan2.1。这个 Wan2.1 可是专门用来生成高质量视频的 AI 模型,它在处理复杂动作、还原真实物理规律、让视频有电影质感,还有更好地按照指令做事这些方面,表现都特别好,成了创作者、开发者还有企业用户在 AI 时代很喜欢用的工具。

通义万相AI视频生成模型 Wan2.1

通义万相Wan2.1官网

新手快速上手指南:

  1. 访问通义万相官网首页。
  2. 在左侧栏目中,选择“视频生成”。
  3. 进一步选择“文生视频”。
  4. 找到并选择“文生视频2.1极速”或“文生视频2.1专业”这两个全新升级的创作模型。
  5. 开始您的视频创作之旅!

通义万相Wan2.1模型地址:【点击使用】

跑一下测试效果

1,复杂动作捕捉,镜头下的表现

场景描述:

滑板公园内,一位活力四溢的滑板少年正上演极限表演。他身着宽松T恤与短裤,头戴棒球帽,尽显青春风采。镜头紧随其后,精准捕捉他自高台飞驰而下,平稳落地的精彩瞬间。阳光洒落,为这场表演增添了一抹亮丽的光彩。

通义万相复杂动作捕捉,镜头下的表现

2.现实物理规律,真实还原

场景描述

Prompt:两车相撞,慢动作碰撞瞬

两辆汽车碰撞

Prompt:一个猛男正在打铁,用锤子敲击,火花四溅。镜头从铁匠的手部特写开始拉远

铁匠手持锤子敲击

3,一键生成艺术字,支持中文和英文

通义万相一键生成艺术字

4,质感还原,转换风格

场景描述

Prompt:一个巨大的眼球虹膜,里面有一群, 梵高风格

一个巨大的眼球虹膜,里面有一群, 梵高风格

若想深入了解更多细节功能,敬请观看昨晚的通义万相开源直播视频,精彩内容不容错过!

视频如下:

Wan2.1 性能测试表现

Wan2.1全新开源,专为处理复杂运动、还原真实物理规律而设计,显著提升影视质感并优化指令遵循。无论您是创作者、开发者还是企业用户,均可按需选择模型与功能,轻松打造高质量视频。此外,万相还引领行业,支持中英文文字特效生成,完美满足广告、短视频等领域的创意需求。

在很权威的 Vbench 评测里,通义万相 Wan2.1 拿了 86.22% 的总分,在排行榜上排第一,把国内外好多有名的视频生成模型都甩在了后面,像 Sora、Minimax、Luma、Gen3 和 Pika 这些。Wan2.1 能这么厉害,是因为它用了主流的 DiT 和线性噪声轨迹 Flow Matching 模式,还通过一系列技术创新,让生成能力有了很大进步。比如说,它自己研发的高效 3D 因果 VAE 模块,能把视频隐空间无损压缩 256 倍,还通过特征缓存机制,能高效地编解码任意长度的视频,同时,推理的时候内存占用还减少了 29%。而且,在单个 A800 GPU 的环境下,视频重建速度比现在最先进的方法快 2.5 倍,性能优势特别明显。

Vbench 评测里,通义万相 Wan2.1 拿了 86.22% 的总分,在排行榜上排第一,

通义万相Wan2.1:技术模块领航视频生成

核心技术创新:

  • 基础范式: 采用主流的DiT和线性噪声轨迹Flow Matching,为生成能力奠定坚实基础。
  • 3D因果VAE: 自研高效模块,实现256倍无损视频隐空间压缩,大幅提升编码与解码效率。
  • 特征缓存机制: 引入创新机制,支持任意长度视频高效处理,实现无限长1080P视频流畅编解码。
  • 内存优化: 空间降采样压缩提前,减少29%推理时内存占用,不牺牲性能。

性能表现卓越:

  • 视频VAE实验: 在相同硬件环境(单个A800 GPU)下,重建速度比现有最先进方法快2.5倍。
  • 压缩重构质量: 在较小模型参数下,实现业内领先的压缩重构质量,高分辨率下性能优势更明显。
  • 通义万相大模型: 通过自研技术、可扩展预训练策略、大规模数据链路构建及自动化评估指标,全面提升模型性能,为创作者、开发者和企业用户提供卓越的视频生成体验。

通义万相大模型视频VAE

Wan2.1 的视频 Diffusion Transformer 架构

通过 Full Attention 机制,能很好地模拟长时间的时空依赖关系,生成的视频质量高,时间和空间上也很连贯。它的训练方法是分 6 个阶段,从低分辨率图像数据的预训练,慢慢过渡到高分辨率视频数据的训练,最后再用高质量标注数据进行微调,这样就能保证模型在不同分辨率和复杂场景里都表现出色。在处理数据的时候,Wan2.1 设计了四步数据清洗流程,主要看基础维度、视觉质量和运动质量,从乱糟糟的原始数据里选出高质量又多样的数据,让训练更有效。

通义万相视频架构图

在优化模型训练和推理效率上

Wan2.1 也用了很多办法。训练的时候,对文本、视频编码模块和 DiT 模块,分别用不同的分布式策略,还能通过高效的策略切换,避免计算重复。在优化显存方面,采用分层的显存优化策略,再结合 PyTorch 显存管理机制,解决显存碎片的问题。推理的时候,用 FSDP 和 2D CP 组合的方法进行多卡分布式加速,还通过量化方法让性能变得更好。

通义万相数据清洗流程通义万相 Wan2.1 未来部署

现在,通义万相 Wan2.1 已经在 GitHub、Hugging Face 和魔搭社区这些平台开源了,支持多种主流框架。开发者和研究者可以通过 Gradio 快速体验,也可以用 xDiT 并行加速推理来提高效率。同时,这个模型正在加快接入 Diffusers 和 ComfyUI,让一键推理和部署流程更简单,降低开发门槛,不管是快速做原型开发,还是高效进行生产部署,用户都能轻松做到。

  • Github: https://github.com/Wan-Video
  • HuggingFace: https://huggingface.co/Wan-AI
  • 在线体验:请访问阿里云通义万相:【点击使用】
  • 阿里魔塔社区入口:【点击登陆】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 通义万相:阿里云AI绘画/视频创作工具
相关资讯
  • 2025年8月第2周-12家AI工具精选:AITOP100收录的全场景效率神器(附免费试用入口)

  • 2025年8月上旬AI大赛合集:7场赛事总奖金40.83万,速看参赛指南!

  • 百度放大招!新推理模型与文心一言5.0即将上线

  • MiniMax Speech 2.5上线:多语种语音生成迎来“天花板”级突破

  • 手机也能跑GPT-4V!面壁智能MiniCPM-V4.0开源,性能碾压一众对手!

热点资讯

重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

4天前
重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

4天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

7天前
Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

百度放大招!新推理模型与文心一言5.0即将上线

2天前
百度放大招!新推理模型与文心一言5.0即将上线

秘塔AI重磅升级!搜索API正式上线,3分钱替代微软Bing API

4天前
秘塔AI重磅升级!搜索API正式上线,3分钱替代微软Bing API
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有