在人工智能视频生成的江湖里,扩散模型一直是位武功高强的“大侠”,能生成质量超棒的视频。但这大侠也有个头疼的毛病——它那一套迭代去噪的独门绝技,得花老长时间,还得烧好多计算资源,就像练个绝世神功得闭关好久,还得吃好多补品一样。这可把想用它来搞视频创作的小伙伴们给愁坏了。
不过呢,最近北京航空大学、香港大学和上海人工智能实验室的一群科研高手们,联手搞出了个叫AccVideo的新玩意儿,就像给扩散模型大侠找了个超级加速器。他们用了个特别巧妙的蒸馏办法,还整了个合成数据集,一下子就把视频扩散模型的生成速度给提上去了,整整快了8.5倍呢!这啥概念?就好比原本你得等老半天才能看到个完整视频,现在嗖的一下,视频就蹦出来了。
咱先说说这AccVideo是咋个加速法的。研究团队先用预训练的视频扩散模型整出好多有效的去噪轨迹,弄了个高质量的合成数据集。这可比以前那些蒸馏办法聪明多了,以前得用好多重复的数据点,现在AccVideo可不用了,效率一下子就上去了。
然后呢,AccVideo还搞了个基于轨迹的少步指导策略。这就好比有个经验丰富的老师傅(预训练的视频扩散模型),带着个新手徒弟(学生模型)学手艺。老师傅把关键步骤都告诉徒弟,徒弟不用一步一步慢慢学,很快就能上手,快速生成视频。
光速度快可不行,视频质量也得有保证啊。AccVideo又使了个绝招——对抗训练策略。这就好比让徒弟的作品和老师傅的作品互相PK,看看哪儿不一样,然后徒弟就不断改进,最后生成的视频质量就越来越高了。
实验结果显示,AccVideo这新玩意儿可太牛了!它生成视频的速度比老师傅快了8.5倍,而且质量还一点儿不差。更厉害的是,它还能生成5秒长、分辨率高达720x1280、帧率24fps的高质量视频。跟以前的加速方法比起来,AccVideo在视频质量和分辨率上那可强多了。
这AccVideo一出来,可把视频创作的小伙伴们乐坏了。以后想做个视频,不用等老半天,也不用花老多钱买计算资源了。比如说,你想做个描绘繁华东京街头时尚女性的视频,或者是个栩栩如生的动物场景,再或者是个充满想象力的科幻画面,只要简单描述一下,AccVideo就能给你整出个高质量的视频来。
从研究团队展示的结果来看,不管是啥复杂场景,啥多样化主题,AccVideo都能轻松搞定。这可真是个视频生成领域的“神器”啊!AccVideo的发布,就像是给视频生成领域扔了个重磅炸弹,把速度慢、成本高的难题都给解决了,以后视频内容创作和应用肯定会越来越方便、越来越广泛。