阿里巴巴开源万相2.1视频生成模型：性能卓越，引领行业创新-AITOP100,AI资讯

阿里巴巴开源万相2.1视频生成模型

阿里巴巴官方宣布全面开源旗下视频生成模型万相2.1，此次开源包含14B和1.3B两个版本，旨在推动视频生成技术的普及与发展。

其中，14B专业版模型具备高性能，能够提供业界领先的表现力，满足用户对视频质量的极高要求。而1.3B极速版则对硬件要求较低，消费级显卡，仅需8.2GB显存即可生成480P的高质量视频，非常适合二次模型开发和学术研究。

万相2.1优势：复杂运动，真实物理规律，影视质感

据介绍，本次开源的万相2.1在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循等方面展现出显著优势，能够满足创作者、开发者和企业用户的多样化需求。借助于通义万相，用户可以轻松实现高质量的视频生成，尤其是在广告和短视频领域，满足了对创意的高要求。

VBench 评测登顶：性能领先，实力认证

在权威评测集VBench中，通义万相以总分86.22%高居榜首，远超Sora、Minimax、Luma等国内外其他视频生成模型。该评测基于主流的DiT和线性噪声轨迹Flow Matching范式，通过一系列技术创新提升了模型的生成能力。特别是自研的高效3D 因果VAE模块，成功实现256倍无损视频隐空间压缩，支持任意长度视频的高效编码与解码。

技术解析：Full Attention机制，分步训练策略

通义万相在生成视频的过程中，采用了基于主流DiT结构的Full Attention机制，有效建模时空依赖性，确保生成视频的高质量与一致性。模型的训练策略采用6阶段分步训练法，从初步的低分辨率数据训练逐步引入高分辨率数据，以保证模型在不同条件下的优异表现。此外，通义万相在数据处理方面也采取了严格的清洗流程，以确保训练数据的高质量。