近日,UT奥斯丁联合其他几家知名机构,于4月5日正式在GitHub上发布了最新的AI视频生成模型StreamingT2V的代码和模型,这一技术成果在学术界和工业界均引起了广泛关注。
据此前3月22日该团队在arXiv上发表的论文介绍,StreamingT2V技术代表了一种全新的AI视频生成方法。
这一技术突破传统限制,能够生成高度一致、长度可扩展的视频内容。令人瞩目的是,StreamingT2V能够生成长达1200帧、即120秒的长视频,这在以往的AI视频生成技术中是难以想象的。
StreamingT2V的核心理念在于其强大的长视频生成能力。传统的视频生成模型往往受限于视频长度和连贯性,而StreamingT2V通过引入创新的自回归技术框架,有效地解决了这些问题。
该技术结合了条件注意力、外观保持和随机混合三大模块,从而在保证视频动作一致性和连贯性的同时,极大地延长了视频的时间长度。
特色亮点包括:
- 从文本描述生成2分钟的视频
- 创建具有复杂动态运动的视频
- 确保长视频中的时间一致性
条件注意力模块在StreamingT2V中发挥着关键作用。
它类似于一种“短期记忆”,能够通过注意力机制从前一个视频块中提取特征,确保流畅自然的块间过渡,同时保留了高速运动特征。这一特性使得生成的视频在动作和场景转换上更为自然和真实。
外观保持模块则是为了保证生成视频的全局场景和物体特征的一致性。它从第一个视频块中提取高级特征,并在后续的视频生成过程中进行保持,从而避免了模型在长视频生成过程中可能出现的“忘记”初始场景的问题。
随机混合方法的引入,使得StreamingT2V能够对无限长视频应用视频增强器进行自回归,而不会在视频块之间产生不一致性。这一技术显著提升了生成视频的质量和连贯性。
业内专家表示,StreamingT2V的发布是AI视频生成领域的一大里程碑。其强大的长视频生成能力和高度一致性的特点,将为影视制作、游戏设计、广告设计等多个行业带来革命性的变革。同时,该技术的开源也将推动AI视频生成技术的进一步发展和普及。
随着技术的不断进步和应用场景的拓展,我们有理由相信,StreamingT2V将在未来引领AI视频生成技术的新潮流。
GitHub地址:https://github.com/Picsart-AI-Research/StreamingT2V
论文地址:https://arxiv.org/abs/2403.14773