工具介绍

通义万相Wan(国际版)基础介绍
阿里巴巴旗下“通义”品牌迎来重大更新,其AI视频生成模型“通义万相Wan”已正式上线独立网站(即通义万相Wan国际版)。用户只需轻松登录,即可直接体验从“文本”到“视频”、从“图像”到“视频”的神奇转换功能,无需繁琐的本地部署,使用更加便捷。此外,网站还每日赠送积分,鼓励用户不断尝试,持续探索AI视频的无限可能。
通义万相Wan是阿里云通义系列中一款功能强大的视频生成AI模型。于2025年2月25日,阿里巴巴基于最宽松的Apache2.0协议,将通义万相Wan2.1版本的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在Github、HuggingFace和魔搭社区便捷下载体验。这一开源举措,极大地推动了AI视频生成技术在全球范围内的交流与创新。
通义万相本就是阿里云旗下颇受关注的AI绘画创作模型,自2023年7月7日上线开启定向邀测后,便在多模态处理领域崭露头角。2024年9月19日,阿里云发布通义万相视频生成大模型,其生成影视级高清视频的能力引发行业轰动,用户可通过通义APP及通义万相官网免费体验。到了2025年1月,通义万相迎来2.1版本升级,视频生成、图像生成两大核心能力显著提升,通义万相Wan(国际版)2.1更是站在了技术前沿,成为众多创作者和开发者关注的焦点。
二、产品功能亮点
(一)多模态任务支持
1. 文本到视频(T2V):用户只需输入文字描述,模型就能生成对应的视频内容。描述“阳光明媚的沙滩上,海浪轻柔地拍打着海岸,身着比基尼的人们在沙滩上嬉戏玩耍”,模型即可生成一段展现该场景的动态视频。而且,它对中英文文本都有出色的理解和生成能力,是全球首个原生支持中英双语文字特效生成的模型,能生成海报字体、场景嵌入文字等,为视频增添丰富的文字元素。
2. 图像到视频(I2V):上传一张或一系列图像,通义万相Wan(国际版)能够基于这些图像生成连贯的视频。输入一组描绘四季变化的图片,模型会生成一段流畅展现四季更迭过程的视频,通过智能算法让静态图像“动”起来。
3. 视频编辑:不仅能生成全新视频,还可对已有的视频进行编辑处理。调整视频的色调、添加特效、更改视频中的部分元素等操作都能轻松实现。比如将一段普通的风景视频添加复古色调滤镜,使其呈现出老电影般的质感。
4. 文本到图像(T2I):依据文本描述生成高质量图像,为视频创作提供素材支持。若需要一个奇幻风格的城堡图片用于视频,输入相关文字描述,模型便能快速生成符合要求的图像。
5. 视频到音频(V2A):从视频中提取音频信息,或者根据视频内容生成匹配的音频。在一段热闹的街市视频中,模型可提取出嘈杂的人声、车辆声等环境音,也能为视频配上一段欢快的背景音乐,增强视频的氛围感。
(二)强大的物理模拟与运镜能力
1. 精准物理模拟:
在生成视频时,能够精准还原碰撞、反弹、切割等复杂物理场景。模拟篮球撞击篮板后的反弹轨迹、刀具切割物体的真实效果等,使生成的视频更加贴近现实,增强视觉真实感。在展现一场激烈的足球比赛视频中,足球与球员身体的碰撞、足球在草地上的滚动等物理效果都能被精准呈现。
2. 电影级运镜效果:
支持自动运镜功能,可生成具有电影感十足的镜头语言。运用推、拉、摇、移等多种运镜手法,为视频增添丰富的视觉动态。在拍摄一段自然风光视频时,模型能自动运用运镜,从远处的山峦逐渐拉近到近处的花草,展现出宏大而细腻的自然景观。
三、性能参数剖析
(一)不同参数版本
1. 14B版本:具备强大的复杂场景处理能力,支持生成720P及以上分辨率的高清视频,甚至能实现无限长1080P视频的编解码。适用于对视频画质和场景复杂度要求极高的专业场景,如影视制作、大型广告片制作等。在处理一场宏大的战争场景视频时,14B版本能够细腻地展现出众多人物的动作细节、复杂的场景布局以及光影变化。但该版本对硬件要求较高,需要高性能GPU(如NVIDIA A100)的支持。
2. 1.3B版本:对硬件要求相对较低,仅需8.19GB显存,几乎可在所有消费级GPU上运行,如常见的RTX 4060/4090等。这使得普通个人开发者和创作者也能轻松在本地部署使用。虽然其生成视频的分辨率最高为480P(也可尝试生成720P,但稳定性稍低),但在生成速度上表现尚可,在RTX 4090上生成5秒480P视频大约需要4分钟,能够满足日常创意视频制作、短视频创作等场景需求 。
(二)权威评测表现
在权威评测工具VBench中,通义万相Wan(国际版)2.1以总分86.22%的优异成绩登顶全球榜首,超越了Sora、Pika等知名闭源模型。这一成绩充分证明了其在生成质量、物理模拟准确性、复杂运动生成以及文本 - 视频关联性等方面的卓越技术优势。在复杂运动生成方面,它能够精准呈现人物的旋转、跳跃等复杂动作,以及物体的高速运动轨迹,且在物理规律模拟上表现出色,生成的视频中物体的运动符合现实中的物理原理。
四、应用场景广泛
1. 影视制作领域:为影视创作者提供了高效的特效制作和动画生成工具。在拍摄奇幻题材影视作品时,利用通义万相Wan(国际版)生成各种魔法特效场景、神话生物的动画等,节省大量的后期制作成本和时间。生成一段巨龙在天空翱翔并喷出火焰的特效视频,为影片增添震撼视觉效果。
2. 广告与营销行业:快速生成吸引人的广告视频。根据产品特点和营销需求,生成包含产品展示、使用场景、特色亮点等内容的视频。为一款新上市的电子产品生成一段宣传视频,通过生动的画面和特效突出产品的功能和优势,吸引消费者的关注。同时,其支持的动态字幕和特效功能,能使广告视频更加生动有趣,提升广告的吸引力和传播效果。
3. 教育与培训场景:教师可以制作生动的教学视频,将抽象的知识通过具体的视频场景展示出来,增强教学的互动性和趣味性。在讲解物理课程中的力学原理时,生成物体受力运动的模拟视频,帮助学生更好地理解知识。对于文化教育内容,也可生成历史事件模拟视频、艺术作品创作过程视频等,丰富教育资源。
4. 个人创作者平台:降低了个人创作者的视频创作门槛,即使没有专业的视频制作技能,也能通过简单的文字输入或图像上传,创作出富有创意的视频内容。个人创作者可以利用它生成短视频素材、虚拟直播背景视频等,满足个性化的创作需求,在社交媒体平台上分享独特的作品,吸引更多关注 。
五、最新动态
wan2.2视频模型开源
2025年7月28日晚,阿里开源电影级视频生成模型通义万相Wan2.2,引发创作者与开发者关注。
此次同步开源三款模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)及统一视频生成(Wan2.2-IT2V-5B)。其中前两者为业界首批采用 MoE 架构的视频模型,总参数量 27B、激活参数 14B,可节省 50% 计算资源;通过高 / 低噪声专家模型分工,在复杂运动生成、人物交互上表现突出。
功能上,其首创电影美学控制系统,能通过关键词精准调控光影、色彩等电影级元素。单次可生成 5 秒高清视频,支持多轮提示词制作短剧,未来将提升生成时长。
5B 小尺寸的 Wan2.2-IT2V-5B 模型,支持文生 / 图生视频,采用高压缩率 3D VAE 架构,仅需 22G 显存(消费级显卡),几分钟即可生成 5 秒 720P/24 帧视频,速度领先同规格模型。
目前开发者可在 GitHub 等平台下载,企业可调用阿里云百炼API,普通用户可通过通义万相官网及App体验。
其他相关工具地址
阿里云AI绘画/视频创作工具-通义万相(国内版)地址:【点击登录】
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

VideoPlus.ai
VideoPlus.ai, an Image to Video AI generator, offers a streamlined platform for creating and customizing professional videos.
Sparkify
Sparkify是谷歌基于Gemini2.5多模态大模型与Veo 2视频生成技术打造一款AI实验性教育工具,通过将用户输入的问题或复杂概念转化为2分钟以内的动画短视频,实现知识的直观化传播。
Video Ocean
Video Ocean是潞晨科技最新发布的一款限时视频生成模型。这款模型源自其开源项目Open Sora,自问世以来便受到了开发者社区的热烈追捧,目前在GitHub上已经收获了超过23,000枚星标。Video Ocean V2.0不仅在技术上实现了全面升级,更在画质、动态表现和创作自由度。
Vidu AI国际版
Vidu AI国际版是一款由清华大学和中国AI初创公司生数科技联合开发的先进视频生成大模型。自2024年4月27日正式发布以来,Vidu AI国际版迅速在全球范围内引起了广泛关注。作为首个对标OpenAI的Sora AI模型的中国视频生成器。
Fliki
在 2 分钟内根据脚本或博客文章创建视频(带声音)。
Whisk
Whisk是由Google推出的一款AI图像生成工具,以其独特的“以图生图”功能,彻底颠覆了传统图像创作的模式,允许用户使用图像作为提示来生成新的图像,而不需要冗长的文本提示,用户可以提供多张图像来指定主题、场景和风格,Whisk能够将这些图像的风格混合在一起,生成具有新风格的照片。
Phantom
Phantom是字节跳动研发的一款基于AI的视频生成工具,旨在通过先进的算法和技术,实现高效、智能的视频创作。它主打“参考主体生成”功能,能够精准捕捉并复刻用户提供的参考主体,包括人物、物品、服装、动物以及虚拟角色等,将其融入到生成的视频中。
Morph Studio
Morph Studio是一款卓越的文本到视频生成AI工具,它不仅开创了公众自由测试的先河,还提供了1080P高清画质和长达7秒的精彩视频片段生成能力。其生成的视频画面细腻入微,光影效果更是令人赞叹。
0
0






