在人工智能飞速发展的当下,视频生成领域可谓是竞争激烈、硝烟弥漫。近日,一则重磅消息在科技圈炸开了锅——阿里巴巴云宣布,其备受瞩目的视频生成AI模型Wan2.2即将在近期正式发布。这一消息犹如一颗投入平静湖面的巨石,瞬间在开发者社区和行业里激起了千层浪。
阿里Wan视频生成模型是什么?
阿里Wan视频生成模型即通义万相2.1(Wan 2.1),是阿里云通义实验室于2025年2月26日开源的一款视频生成大模型。它基于Diffusion Transformer范式,采用时空变分自编码器(VAE)等创新技术,具备强大的视频生成能力。Wan 2.1提供14B和1.3B两个主要参数版本,涵盖文本生成视频和图像生成视频任务,在VBench排行榜上表现优于OpenAI的Sora。其1.3B轻量版本支持在消费级GPU上运行,而14B专业版本则可生成更高清的视频。
此外,Wan 2.1还是首个支持中英文动态文字生成的视频模型,适用于影视制作、广告宣传、教育内容制作等多种场景。
体验地址:通义万象国际版(wan)网页端官网入口
体验地址:Sora AI网页端官网入口
Wan2.1升级之作,来势汹汹
Wan2.2可不是凭空冒出来的,它是Wan2.1的升级版本。要知道,Wan2.1在2025年2月开源后,那可是取得了巨大的成功。它凭借独特的时空变分自编码器(VAE)和扩散变换器(DiT)架构,在VBench基准测试中以84.7%的得分一举超越了OpenAI的Sora(84.28%),这成绩相当亮眼,也让大家对Wan2.2充满了期待。
预计Wan2.2技术升级后,性能飙升
据社交媒体上的热烈讨论,Wan2.2预计会在Wan2.1的基础上进行全面优化。在视频生成速度和质量上,那将会有质的飞跃,特别是在高分辨率(比如1080p)和长视频生成方面,表现值得期待。
新增的功能更是让人眼前一亮:
- 文本到视频(T2V):不仅能支持更高分辨率,像1080p和4K都不在话下,还能生成更长的视频,而且生成时间还会进一步缩短。以后用文字描述就能快速得到高质量的长视频,简直太方便了。
- 图像到视频(I2V):动态场景的流畅性和真实性会大幅提升,能支持更复杂的动作和场景转换。想象一下,一张静态图片能瞬间变成生动逼真的动态视频,这技术太牛了。
- 视频到音频(V2A):能更好地从视频内容生成匹配的音频,大大提升多模态创作体验。以后做视频,不用再到处找合适的音频素材,Wan2.2一键就能搞定。
- 多语言与风格扩展:支持更多语言的文本效果生成,还新增了赛博朋克、写实动画等多样化的艺术风格模板。不管你是想用哪种语言创作,还是喜欢什么风格,Wan2.2都能满足你。
- 硬件优化:进一步降低了硬件需求,T2V - 1.3B模型预计能在更低显存(如6GB)的设备上运行。这意味着更多用户能用上这个强大的工具,不用再担心硬件配置不够的问题。
而且,Wan2.2的训练数据会在Wan2.1(15亿视频、100亿图像)的基础上进一步扩充,还会优化数据筛选,让生成的内容更加多样和真实。
Wan2.2开源共享,推动创新
通义万相2.2(Wan2.2)将继续采用Apache2.0许可证,通过Alibaba Cloud ModelScope和Hugging Face免费提供代码和模型权重,支持学术研究和商业应用。Wan2.1已经推出了T2V - 1.3B、T2V - 14B、I2V - 14B - 720P和I2V - 14B - 480P四种变体,Wan2.2预计还会新增更多模型变体,针对不同硬件和场景进一步优化。
开发者们对Wan2.2的开源前景那是充满了期待。大家都觉得,它将进一步挑战OpenAI Sora等封闭模型的市场主导地位,推动AI视频生成技术的民主化。阿里这一举措,不仅降低了技术门槛,还为全球开发者提供了更多的创新空间。
在AI视频生成领域,阿里Wan2.2的上线无疑是一场重大变革。它带着强大的技术和开源共享的理念,向行业霸主地位发起了冲击。如果你也对AI视频生成感兴趣,不妨持续关注Wan2.2的动态,说不定它能给你带来意想不到的惊喜。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: