• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

通义万相国际版Wan2.5上线:新增音频驱动视频生成与指令式图像编辑功能

通义万相国际版Wan2.5上线:新增音频驱动视频生成与指令式图像编辑功能
AI TOP100
2小时前

一、创作圈炸了:用一段音频就能生成同步视频?

“以前做口播视频要拍画面、配音效、调同步,折腾大半天;现在用 Wan2.5,录段音频拖进去,10 秒就出带口型对齐的成片。” 这是最近不少创作者实测通义万相 Wan2.5 预览版后的反馈。

2025年9月26日和9月28日这2天,通义万相国际版在社交平台接连官宣核心升级:原生音频驱动视频生成和精准图像编辑。这2波更新直接打破了 AI 创作中 “音画脱节”“编辑失真” 的老问题,让普通用户也能玩转电影级内容制作。

wan2.5

wan2.5

二、音频当 “脚本”:Wan2.5 的视频生成有多神?

1. 多模态组合输入,新手也能控细节

Wan2.5最颠覆的地方,是把音频从 “附属品” 变成了 “指挥棒”。它支持 **“音频 + 文本”“音频 + 图片” 两种核心组合模式 **,解决了传统 AI 视频 “指令模糊、效果失控” 的痛点。

比如你想做一段美食 ASMR:上传一张牛排图片,配上 “滋滋煎烤声 + 刀叉切割声” 的音频,再补一句文本提示 “暖光特写,焦香纹理清晰”,生成的视频里,不仅画面会呈现牛排煎制的动态,音效还能精准匹配油脂滴落的节奏。这种多模态融合的能力,得益于它采用的原生多模态架构—— 文本、图像、音频在同一框架下训练,避免了传统模型 “各管各的” 导致的错位问题。

2. 10 秒 1080P 高清,满足实用场景需求

相比旧版本 5 秒的时长限制,Wan2.5把视频生成时长提升到10 秒,还支持 24 帧 / 秒的 1080P 清晰度。这个长度刚好能承载一个完整的小叙事:比如产品演示、段子脱口秀、场景化广告,生成的画面细腻度完全能满足短视频平台发布标准。

实测发现,它对复杂指令的理解也很到位。输入 “低角度仰拍,滑板少年腾空,背景城市日落,配滑板落地声 + 嘻哈 BGM”,生成的视频不仅镜头角度、光影效果精准还原,连滑板摩擦地面的音效都能和动作同步。这背后是模型对运镜逻辑、物理音效的深度学习,比单纯 “堆参数” 更实用。


三、氛围 PS不是吹:图像编辑能保住 “原模样”

1. 指令听话,编辑不用 “猜效果”

Wan2.5的图像编辑功能,被用户戏称 “AI 版美图秀秀 Pro”。它的基于指令的编辑能力覆盖了日常创作的高频需求:换背景、改风格、加元素,甚至复杂的 “人物换装 + 场景替换” 都能一次搞定。

比如你拍了张户外人像,想改成 “室内咖啡馆氛围”,只需输入 “保留人物,背景替换为复古咖啡馆,暖色调,加咖啡杯道具”,生成的图片里,人物的发型、表情、穿搭会完全保留,不会像老款 AI 那样把人脸 “修变形”。这种精准度源于模型对 “主体与环境分离” 的深度学习,避免了编辑中的 “连带损伤”。

2. 视觉一致性拉满,多图创作不翻车

对于需要批量制作的内容(比如产品宣传图、角色设定集),Wan2.5 的视觉元素一致性功能堪称刚需。它支持从单张或多张参考图中提取核心特征,确保生成的系列内容在 “面部五官、产品细节、风格调性” 上保持统一。

举个例子:上传一张品牌模特海报,要求 “生成 3 张不同场景的宣传图,保留模特五官和服装版型”,最终输出的办公室、户外、展厅场景图里,模特的面部特征、服装纹理都能精准对齐,不会出现 “换个场景变张脸” 的尴尬情况。这对电商商家、设计师来说,能直接节省大量修图返工时间。


四、为什么说这波更新戳中了创作者痛点?

AI 创作工具层出不穷,但真正能落地的不多,Wan2.5的升级刚好踩中了三个核心需求:

  • 降低专业门槛:不用学剪辑软件、不用懂音效合成,靠 “音频 + 简单文字” 就能出精品,中小商家、自媒体博主直接受益;
  • 提升内容质感:音画同步、细节还原的能力,让 AI 生成内容从 “能看” 变成 “好看”,解决了此前 AI 作品 “塑料感重” 的问题;
  • 保障创作可控性:无论是视频的镜头逻辑,还是图像的编辑边界,都能通过明确指令控制,避免了 “AI 自由发挥” 导致的无用功。

五、普通人怎么用?

目前 Wan2.5 预览版已开放官网体验,开发者还能通过阿里云百炼平台调用 API。

从实测效果看,这几个场景已经能直接上手:

  • 短视频创作:口播段子、产品演示等 10 秒内容,生成后稍作调整就能发布;
  • 广告素材制作:批量生成同风格产品图、场景化宣传视频,保持品牌调性统一;
  • 内容二次创作:把静态图文改成带音效的动态视频,提升传播力;
  • 虚拟形象互动:上传虚拟人图片 + 配音音频,生成表情、口型同步的说话视频。

结语

Wan2.5的更新没有追求 “噱头式功能”,而是在 “实用性” 和 “专业性” 之间找到了平衡。它用音频驱动打破了创作壁垒,用精准编辑解决了落地痛点,让AI创作从 “炫技工具” 变成了 “效率利器”。对于需要高频产出视觉内容的用户来说,这波升级确实值得一试。

体验地址:通义万相网页版官网


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

aitop100官方交流30群

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • Wan
  • 通义万相
相关资讯
  • 通义万相国际版Wan2.5上线:新增音频驱动视频生成与指令式图像编辑功能

  • Kling AI在釜山电影节展示2.5模型,推动AI视频制作技术落地应用

  • Moondream 3.0正式发布:2B激活参数,开源视觉语言模型性能超越GPT-5

  • 谷歌Gemini 2.5 Flash Lite模型更新,输出速度达887 token/秒

  • GitHub Copilot CLI公测来袭:AI代理杀入终端,开发者告别“界面跳转”噩梦

热点资讯

字节跳动豆包翻译大模型上线:28种语言秒译,性能碾压GPT-4o,价格直接打“骨折”?

6天前
字节跳动豆包翻译大模型上线:28种语言秒译,性能碾压GPT-4o,价格直接打“骨折”?

阿里夸克重磅推出AI创作平台“造点”:AI生图+视频生成全免费,Midjourney V7+通义万相Wan2.5双引擎加持

4天前
阿里夸克重磅推出AI创作平台“造点”:AI生图+视频生成全免费,Midjourney V7+通义万相Wan2.5双引擎加持

Wan2.5 Preview正式上线:AI生成电影级视频+“听懂”人话的多模态神器来了

4天前
Wan2.5 Preview正式上线:AI生成电影级视频+“听懂”人话的多模态神器来了

2025年9月25日重磅:Meta上线320亿参数代码模型CWM,AI写代码竟能"先试后做"?

3天前
2025年9月25日重磅:Meta上线320亿参数代码模型CWM,AI写代码竟能"先试后做"?

重磅升级!阿里Qwen-Image-Edit-2509多图像编辑神器,一键生成广告大片不是梦

5天前
重磅升级!阿里Qwen-Image-Edit-2509多图像编辑神器,一键生成广告大片不是梦
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有