我们都知道可灵视频大模型是快手大模型团队自主研发的一款先进的AI视频生成技术。这个模型具备3D时空注意力机制,能够生成长达2分钟、30fps的1080p高分辨率视频,并支持多种宽高比。它能够模拟真实物理世界的特性,将用户的想象转化为具体的画面,同时支持多种视频宽高比,适用于多样化的视频制作和内容创作需求。
接下来我们看看可灵大模型的6大亮点,以及技术方案
快手做视频生成的优势
应用场景丰富 UGC类:
- 视频增强/风格化,视频生成式编辑,图像转视频等
- PGC类:数字人直播间,商业视频素材创作,视频编辑软件等
技术积累深厚
视频创作的需求一直存在,快手有十多年的技术积累和实战经验 在大模型领域布局全面,曾推出备受好评的「快意」、「可图」
快手可灵大模型
1.首个可实际体验的Sora级效果的视频生成模型,官网: https://www.aitop100.cn/tools/detail/1900.html
2.可以在快影APP上面申请体验权限
【可灵大模型】能力亮点
亮点一:
大幅度的合理运动:可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动,同时符合运动规律
亮点二:
分钟级的长视频生成:得益于高效的训练基础设施,极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分钟的视频,且帧率达到30fps
亮点三:
模拟物理世界特性:基于自研模型架构及ScalingLaw激发出的强大建模能力可灵能够模拟物理世界的特性,生成符合物理规律的视频
亮点四:
强大的概念组合能力和想象力:基于对文本-视频语义的深刻理解和 DiffusionTransformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面
亮点五:
电影级的画面生成:基于自研3D VAE,可灵能够生成1080p分辨率的电影级视频无论是浩瀚壮阔的宏大场景,还是细腻入微的精致画面,都能够生动呈现
亮点六:
支持自由的输出视频宽高比:可灵在训练中采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比
【可灵】技术方案:模型设计
隐空间编解码:从2D VAE到3D VAE,对视频进行高效压缩
网络基础架构:从U-Net到Transformer,验证scaling性质
时序信息建模:从1D到3D全注意力机制,打开时空感受野
文本扩展及编码:专用LLM,保障模型的文本响应能力
【可灵】技术方案:数据保障
海量视频数据平台:全流程、自动化、高效率的支持模型的训练和评估
多维度视频标签体系:可精细化的筛选数据,或对数据的分布进行调整
视频描述模型:自研Captioner,提升了完整度、准确度,并降低了幻觉
数据驱动的效果评估:数据驱动的视频生成质量评价方案,引导模型迭代【可灵】技术方案:能力扩展
可变宽高比:训练时保留原始数据的宽高比,推理时保持输出尺寸灵活
视频时序延展:支持多种应用模式,包括时序延展、图像生视频、插帧等
多模态输入可控性:为用户提供了丰富的对最终视频内容的控制手段AITOP100平台工具集专区: https://www.aitop100.cn/tools/index.html