

工具介绍
通义万相Wan(国际版)基础介绍
阿里巴巴旗下“通义”品牌迎来重大更新,其AI视频生成模型“通义万相Wan”已正式上线独立网站(即通义万相Wan国际版)。用户只需轻松登录,即可直接体验从“文本”到“视频”、从“图像”到“视频”的神奇转换功能,无需繁琐的本地部署,使用更加便捷。此外,网站还每日赠送积分,鼓励用户不断尝试,持续探索AI视频的无限可能。
通义万相Wan是阿里云通义系列中一款功能强大的视频生成AI模型。于2025年2月25日,阿里巴巴基于最宽松的Apache2.0协议,将通义万相Wan2.1版本的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在Github、HuggingFace和魔搭社区便捷下载体验。这一开源举措,极大地推动了AI视频生成技术在全球范围内的交流与创新。
通义万相本就是阿里云旗下颇受关注的AI绘画创作模型,自2023年7月7日上线开启定向邀测后,便在多模态处理领域崭露头角。2024年9月19日,阿里云发布通义万相视频生成大模型,其生成影视级高清视频的能力引发行业轰动,用户可通过通义APP及通义万相官网免费体验。到了2025年1月,通义万相迎来2.1版本升级,视频生成、图像生成两大核心能力显著提升,通义万相Wan(国际版)2.1更是站在了技术前沿,成为众多创作者和开发者关注的焦点。
二、产品功能亮点
(一)多模态任务支持
1. 文本到视频(T2V):用户只需输入文字描述,模型就能生成对应的视频内容。描述“阳光明媚的沙滩上,海浪轻柔地拍打着海岸,身着比基尼的人们在沙滩上嬉戏玩耍”,模型即可生成一段展现该场景的动态视频。而且,它对中英文文本都有出色的理解和生成能力,是全球首个原生支持中英双语文字特效生成的模型,能生成海报字体、场景嵌入文字等,为视频增添丰富的文字元素。
2. 图像到视频(I2V):上传一张或一系列图像,通义万相Wan(国际版)能够基于这些图像生成连贯的视频。输入一组描绘四季变化的图片,模型会生成一段流畅展现四季更迭过程的视频,通过智能算法让静态图像“动”起来。
3. 视频编辑:不仅能生成全新视频,还可对已有的视频进行编辑处理。调整视频的色调、添加特效、更改视频中的部分元素等操作都能轻松实现。比如将一段普通的风景视频添加复古色调滤镜,使其呈现出老电影般的质感。
4. 文本到图像(T2I):依据文本描述生成高质量图像,为视频创作提供素材支持。若需要一个奇幻风格的城堡图片用于视频,输入相关文字描述,模型便能快速生成符合要求的图像。
5. 视频到音频(V2A):从视频中提取音频信息,或者根据视频内容生成匹配的音频。在一段热闹的街市视频中,模型可提取出嘈杂的人声、车辆声等环境音,也能为视频配上一段欢快的背景音乐,增强视频的氛围感。
(二)强大的物理模拟与运镜能力
1. 精准物理模拟:
在生成视频时,能够精准还原碰撞、反弹、切割等复杂物理场景。模拟篮球撞击篮板后的反弹轨迹、刀具切割物体的真实效果等,使生成的视频更加贴近现实,增强视觉真实感。在展现一场激烈的足球比赛视频中,足球与球员身体的碰撞、足球在草地上的滚动等物理效果都能被精准呈现。
2. 电影级运镜效果:
支持自动运镜功能,可生成具有电影感十足的镜头语言。运用推、拉、摇、移等多种运镜手法,为视频增添丰富的视觉动态。在拍摄一段自然风光视频时,模型能自动运用运镜,从远处的山峦逐渐拉近到近处的花草,展现出宏大而细腻的自然景观。
三、性能参数剖析
(一)不同参数版本
1. 14B版本:具备强大的复杂场景处理能力,支持生成720P及以上分辨率的高清视频,甚至能实现无限长1080P视频的编解码。适用于对视频画质和场景复杂度要求极高的专业场景,如影视制作、大型广告片制作等。在处理一场宏大的战争场景视频时,14B版本能够细腻地展现出众多人物的动作细节、复杂的场景布局以及光影变化。但该版本对硬件要求较高,需要高性能GPU(如NVIDIA A100)的支持。
2. 1.3B版本:对硬件要求相对较低,仅需8.19GB显存,几乎可在所有消费级GPU上运行,如常见的RTX 4060/4090等。这使得普通个人开发者和创作者也能轻松在本地部署使用。虽然其生成视频的分辨率最高为480P(也可尝试生成720P,但稳定性稍低),但在生成速度上表现尚可,在RTX 4090上生成5秒480P视频大约需要4分钟,能够满足日常创意视频制作、短视频创作等场景需求 。
(二)权威评测表现
在权威评测工具VBench中,通义万相Wan(国际版)2.1以总分86.22%的优异成绩登顶全球榜首,超越了Sora、Pika等知名闭源模型。这一成绩充分证明了其在生成质量、物理模拟准确性、复杂运动生成以及文本 - 视频关联性等方面的卓越技术优势。在复杂运动生成方面,它能够精准呈现人物的旋转、跳跃等复杂动作,以及物体的高速运动轨迹,且在物理规律模拟上表现出色,生成的视频中物体的运动符合现实中的物理原理。
四、应用场景广泛
1. 影视制作领域:为影视创作者提供了高效的特效制作和动画生成工具。在拍摄奇幻题材影视作品时,利用通义万相Wan(国际版)生成各种魔法特效场景、神话生物的动画等,节省大量的后期制作成本和时间。生成一段巨龙在天空翱翔并喷出火焰的特效视频,为影片增添震撼视觉效果。
2. 广告与营销行业:快速生成吸引人的广告视频。根据产品特点和营销需求,生成包含产品展示、使用场景、特色亮点等内容的视频。为一款新上市的电子产品生成一段宣传视频,通过生动的画面和特效突出产品的功能和优势,吸引消费者的关注。同时,其支持的动态字幕和特效功能,能使广告视频更加生动有趣,提升广告的吸引力和传播效果。
3. 教育与培训场景:教师可以制作生动的教学视频,将抽象的知识通过具体的视频场景展示出来,增强教学的互动性和趣味性。在讲解物理课程中的力学原理时,生成物体受力运动的模拟视频,帮助学生更好地理解知识。对于文化教育内容,也可生成历史事件模拟视频、艺术作品创作过程视频等,丰富教育资源。
4. 个人创作者平台:降低了个人创作者的视频创作门槛,即使没有专业的视频制作技能,也能通过简单的文字输入或图像上传,创作出富有创意的视频内容。个人创作者可以利用它生成短视频素材、虚拟直播背景视频等,满足个性化的创作需求,在社交媒体平台上分享独特的作品,吸引更多关注 。
五、最新动态
wan2.2视频模型开源
2025年7月28日晚,阿里开源电影级视频生成模型通义万相Wan2.2,引发创作者与开发者关注。
此次同步开源三款模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)及统一视频生成(Wan2.2-IT2V-5B)。其中前两者为业界首批采用 MoE 架构的视频模型,总参数量 27B、激活参数 14B,可节省 50% 计算资源;通过高 / 低噪声专家模型分工,在复杂运动生成、人物交互上表现突出。
功能上,其首创电影美学控制系统,能通过关键词精准调控光影、色彩等电影级元素。单次可生成 5 秒高清视频,支持多轮提示词制作短剧,未来将提升生成时长。
5B 小尺寸的 Wan2.2-IT2V-5B 模型,支持文生 / 图生视频,采用高压缩率 3D VAE 架构,仅需 22G 显存(消费级显卡),几分钟即可生成 5 秒 720P/24 帧视频,速度领先同规格模型。
目前开发者可在 GitHub 等平台下载,企业可调用阿里云百炼API,普通用户可通过通义万相官网及App体验。
其他相关工具地址
阿里云AI绘画/视频创作工具-通义万相(国内版)地址:【点击登录】
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:
评论

全部评论

暂无评论
热门推荐
相关推荐
AI数字人
AI数字人是指通过人工智能技术生成的虚拟人物形象。它结合了计算机图形学、语音合成、自然语言处理等多种技术,能够模拟人类的外貌、声音、行为和情感。AI数字人不仅可以进行简单的对话和互动,还可以根据用户的需求生成各种内容,如视频、音频、文案等。Dreamix
Dreamix 编辑视频,同时保持颜色、姿势、对象大小和相机姿势。Play.HT
人工智能驱动的文本到语音生成器AI短视频创作工具
AITOP100平台自研的AI短视频工具是一款集「创意文案 - 脚本撰写 - 分镜绘制 - 分镜成片」于一体的一站式AI广告/视频创作工具。它通过智能技术整合,将原本需要在多个工具间切换的复杂创作流程,简化为在一个平台上即可完成的全链路操作。智谱清影
清影是智谱清言产品打造的视频创作智能体,清影依托于智谱大模型团队自研打造的视频生成大模型 CogVideo,现已支持文生视频、图生视频多个能力,让用户可以轻松高效地完成艺术视频创作。 清影支持多种生成方式,包括文本生成视频、图片生成视频,可应用于广告制作、电影剪辑、短视频制作等领域。磁力开创
“磁力开创”即Kwali是快手磁力引擎推出的一站式AI创意生产平台( AI视频制作助手),旨在通过人工智能生成内容(AIGC)技术,帮助广告主、商家和创作者高效、低成本地生产短视频营销素材。它集成了创意灵感推荐、脚本生成、图文转视频、数字人成片等功能,覆盖从创意构想到视频成片的完整流程。绘想AI
百度“绘想”平台是百度商业研发团队精心打造的视频产品平台,其核心定位是依托自研的MuseSteamer视频生成模型,通过生成式AI与多模态技术,为用户提供高效、专业的视频生成解决方案。该平台旨在满足搜广推场景的原生化内容生产需求,助力客户和内容创作者突破视频创意瓶颈,激发更多内容多样性。Fish Audio
Fish Audio是一家专注于音频生成和语音合成技术的公司,可以进行声音克隆、配音应有尽有,能够生成最自然的AI语音,本文将详细介绍Fish Audio的核心产品——Fish Speech,一款开源的文本到语音(TTS)工具,以及其最新发布的语音处理模型——Fish Agent V0.13B。
0
0