阿里通义万相搞事情!首尾帧生视频模型免费用啦!
嘿,小伙伴们!最近科技圈儿有个大新闻,阿里通义开源了Wan2.1系列模型,其中最吸引眼球的就是那个首尾帧生视频模型!听起来是不是很高大上?其实简单来说,就是你可以给它开头和结尾的两张图,它就能帮你自动生成中间的视频,是不是很神奇!
这个模型可不是花架子,它用了很厉害的 DiT 架构,大大降低了高清视频生成的成本,而且保证生成的视频效果杠杠的,时间线和空间感都超级一致。这下,咱们这些普通人也能玩转 AI 视频了!
Wan2.1 有啥特别的?为啥说它牛?
这次开源的 Wan2.1 系列模型,阿里通义可是下了不少功夫,在很多方面都做了优化和创新。比如说,它用了高效的视频压缩 VAE 模型,让视频生成更省钱更快速。而且,它还用了一种叫做 Full Attention 机制的技术,能精准地捕捉视频里长时间的变化,保证视频的连贯性和真实感。最酷的是,这个首尾帧生视频模型,能根据你提供的首尾两张图,生成流畅又精准的视频,简直是黑科技!
技术流看过来:训练和推理也有优化!
如果你是技术控,那这个更要关注了!通义万相首尾帧生视频模型在训练和推理方面也做了很多优化。它用了一种叫做线性噪声轨迹的流匹配方法,训练的时候用了很多并行计算技术,支持生成 720p 分辨率、5 秒时长的视频。推理的时候,它又用了模型切分和序列并行策略,大大缩短了推理时间。还用了 FlashAttention3INT8 和 FP8 混合算子,对注意力机制部分进行量化,保证效果不打折!
炼成神器的三步走
这个模型也不是一天练成的,它的训练分了三个阶段。第一阶段,用和基模型一样的数据集,进行图生视频、插帧、视频续写等任务的混合训练。第二阶段,专门搞了一批首尾帧差异大的视频片段,重点提升首尾帧的生成能力。第三阶段,用更高精度的数据集,在 720p 分辨率下进行最终训练,确保生成的视频细节完美,动作流畅自然。
这玩意儿有啥用?能干啥?
有了通义万相首尾帧生视频模型,你可以轻松复刻图像细节,生成逼真生动的视频。想象一下,把你家猫咪的可爱照片,变成一段生动的视频,是不是很酷!现在,这个模型已经在 GitHub 上开源了,赶紧去试试,体验一下 AI 视频的魅力吧!有问题或者建议,记得告诉阿里通义哦!
GitHub地址:https://github.com/Wan-Video/Wan2.1
更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯