阿里巴巴开源万相2.1视频生成模型
阿里巴巴官方宣布全面开源旗下视频生成模型万相2.1,此次开源包含14B和1.3B两个版本,旨在推动视频生成技术的普及与发展。
其中,14B专业版模型具备高性能,能够提供业界领先的表现力,满足用户对视频质量的极高要求。而1.3B极速版则对硬件要求较低,消费级显卡,仅需8.2GB显存即可生成480P的高质量视频,非常适合二次模型开发和学术研究。
万相2.1优势:复杂运动,真实物理规律,影视质感
据介绍,本次开源的万相2.1在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循等方面展现出显著优势,能够满足创作者、开发者和企业用户的多样化需求。借助于通义万相,用户可以轻松实现高质量的视频生成,尤其是在广告和短视频领域,满足了对创意的高要求。
VBench 评测登顶:性能领先,实力认证
在权威评测集VBench中,通义万相以总分86.22%高居榜首,远超Sora、Minimax、Luma等国内外其他视频生成模型。该评测基于主流的DiT和线性噪声轨迹Flow Matching范式,通过一系列技术创新提升了模型的生成能力。特别是自研的高效3D 因果VAE模块,成功实现256倍无损视频隐空间压缩,支持任意长度视频的高效编码与解码。
技术解析:Full Attention机制,分步训练策略
通义万相在生成视频的过程中,采用了基于主流DiT结构的Full Attention机制,有效建模时空依赖性,确保生成视频的高质量与一致性。模型的训练策略采用6阶段分步训练法,从初步的低分辨率数据训练逐步引入高分辨率数据,以保证模型在不同条件下的优异表现。此外,通义万相在数据处理方面也采取了严格的清洗流程,以确保训练数据的高质量。
效率优化:分布式训练,显存管理
在训练与推理效率优化方面,通义万相采用了多种先进技术,如分布式训练策略、激活值优化和显存管理,确保模型训练的稳定性与推理效率。通过与阿里云训练集群的智能调度结合,模型在训练过程中能够自动识别故障并快速重启,确保训练过程的顺利进行。
开源赋能:易用性强,前景广阔
通义万相2.1已在GitHub、Hugging Face等平台开源,支持多种主流框架,为开发者和研究者提供了便利的使用体验。无论是快速原型开发还是高效生产部署,通义万相都能满足不同用户的需求,为视频生成技术的发展注入了新的活力。
通义万相2.1的开源,标志着阿里巴巴在AI视频生成领域迈出了重要一步,为开发者和研究者提供了强大的工具,有望加速视频生成技术的创新与应用。
通义万相2.1 AI工具地址:【点击登录】