阿里Wan2.2即将上线：开源视频生成AI，剑指Sora霸主地位-AITOP100,AI资讯

在人工智能飞速发展的当下，视频生成领域可谓是竞争激烈、硝烟弥漫。近日，一则重磅消息在科技圈炸开了锅——阿里巴巴云宣布，其备受瞩目的视频生成AI模型Wan2.2即将在近期正式发布。这一消息犹如一颗投入平静湖面的巨石，瞬间在开发者社区和行业里激起了千层浪。

阿里Wan

阿里Wan视频生成模型是什么？

阿里Wan视频生成模型即通义万相2.1（Wan 2.1），是阿里云通义实验室于2025年2月26日开源的一款视频生成大模型。它基于Diffusion Transformer范式，采用时空变分自编码器（VAE）等创新技术，具备强大的视频生成能力。Wan 2.1提供14B和1.3B两个主要参数版本，涵盖文本生成视频和图像生成视频任务，在VBench排行榜上表现优于OpenAI的 Sora。其1.3B轻量版本支持在消费级GPU上运行，而14B专业版本则可生成更高清的视频。

此外，Wan 2.1还是首个支持中英文动态文字生成的视频模型，适用于影视制作、广告宣传、教育内容制作等多种场景。

体验地址：通义万象国际版（wan）网页端官网入口

体验地址：Sora AI网页端官网入口

Wan2.1升级之作，来势汹汹

Wan2.2可不是凭空冒出来的，它是Wan2.1的升级版本。要知道，Wan2.1在2025年2月开源后，那可是取得了巨大的成功。它凭借独特的时空变分自编码器（VAE）和扩散变换器（DiT）架构，在VBench基准测试中以84.7%的得分一举超越了OpenAI的Sora（84.28%），这成绩相当亮眼，也让大家对Wan2.2充满了期待。

预计Wan2.2技术升级后，性能飙升

据社交媒体上的热烈讨论，Wan2.2预计会在Wan2.1的基础上进行全面优化。在视频生成速度和质量上，那将会有质的飞跃，特别是在高分辨率（比如1080p）和长视频生成方面，表现值得期待。

新增的功能更是让人眼前一亮：

文本到视频（T2V）：不仅能支持更高分辨率，像1080p和4K都不在话下，还能生成更长的视频，而且生成时间还会进一步缩短。以后用文字描述就能快速得到高质量的长视频，简直太方便了。
图像到视频（I2V）：动态场景的流畅性和真实性会大幅提升，能支持更复杂的动作和场景转换。想象一下，一张静态图片能瞬间变成生动逼真的动态视频，这技术太牛了。
视频到音频（V2A）：能更好地从视频内容生成匹配的音频，大大提升多模态创作体验。以后做视频，不用再到处找合适的音频素材，Wan2.2一键就能搞定。
多语言与风格扩展：支持更多语言的文本效果生成，还新增了赛博朋克、写实动画等多样化的艺术风格模板。不管你是想用哪种语言创作，还是喜欢什么风格，Wan2.2都能满足你。
硬件优化：进一步降低了硬件需求，T2V - 1.3B模型预计能在更低显存（如6GB）的设备上运行。这意味着更多用户能用上这个强大的工具，不用再担心硬件配置不够的问题。

而且，Wan2.2的训练数据会在Wan2.1（15亿视频、100亿图像）的基础上进一步扩充，还会优化数据筛选，让生成的内容更加多样和真实。

Wan2.2开源共享，推动创新

通义万相2.2（Wan2.2）将继续采用Apache2.0许可证，通过Alibaba Cloud ModelScope和Hugging Face免费提供代码和模型权重，支持学术研究和商业应用。Wan2.1已经推出了T2V - 1.3B、T2V - 14B、I2V - 14B - 720P和I2V - 14B - 480P四种变体，Wan2.2预计还会新增更多模型变体，针对不同硬件和场景进一步优化。

开发者们对Wan2.2的开源前景那是充满了期待。大家都觉得，它将进一步挑战OpenAI Sora等封闭模型的市场主导地位，推动AI视频生成技术的民主化。阿里这一举措，不仅降低了技术门槛，还为全球开发者提供了更多的创新空间。

在AI视频生成领域，阿里Wan2.2的上线无疑是一场重大变革。它带着强大的技术和开源共享的理念，向行业霸主地位发起了冲击。如果你也对AI视频生成感兴趣，不妨持续关注Wan2.2的动态，说不定它能给你带来意想不到的惊喜。