AI作画的内卷时代结束了?小模型也能画出神作!
一直以来,咱都觉得AI作画就是个“烧钱”的游戏,谁的模型大、参数多、算力强,谁就能画出好图。但最近,香港科技大学和快手科技的研究团队搞出了个牛逼的技术,叫EvoSearch(进化搜索),直接颠覆了我的认知。
这玩意儿有多厉害?简单来说,就是用了一个只有865M参数的Stable Diffusion2.1模型,用了EvoSearch之后,画出来的图竟然比GPT-4o还好!更夸张的是,1.3B参数的Wan模型,配合EvoSearch,就能和14B的大模型打成平手!这简直是“以下克上”啊!
为啥以前的AI模型这么“吃力不讨好”?
现在市面上主流的AI生成模型,主要就是扩散模型和流模型。扩散模型就像把模糊照片一点点变清晰,流模型则是直接把随机噪声变成你想要的图像。听起来挺高大上,但要让它们表现更好,就得疯狂堆资源:要么加大模型规模,要么喂更多数据。但这成本太高了,一般人根本玩不起。
还有一些“小聪明”,比如Best-of-N采样(生成一堆图片,选最好的),或者粒子采样(维护多个候选方案)。
但这些方法都有缺陷:Best-of-N效率太低,浪费资源;粒子采样太保守,容易陷入局部最优解。其他的微调方法,要么要额外训练,要么生成的东西没啥新意。总之,都不太给力。
EvoSearch:AI作画界的“进化论”!
EvoSearch的核心思想,就是把达尔文的“进化论”搬到了AI生成领域。它把图像生成看作一个物种进化过程:先生成一堆“初始种群”(随机噪声),然后给这些“半成品”打分,选出优秀的“个体”,再通过专门设计的“变异”操作,产生新的候选方案。
这个“变异”操作是EvoSearch最厉害的地方。对于初始噪声,它会加一些高斯噪声来“变异”;对于去噪过程,它会引入一些可控的扰动。这样既能探索新的可能性,又能保留优秀的“基因”。
相比传统方法,EvoSearch有三大优势:它是主动探索,而不是被动筛选;它能平衡探索和利用,避免过早收敛到局部最优;它很通用,各种扩散模型和流模型都能用,不用改模型结构,也不用额外训练。
实验结果:全方位碾压!
研究团队在图像和视频生成上做了大量测试,结果显示,EvoSearch在各个方面都比以前的方法好太多了。
在图像生成方面,随着计算量增加,EvoSearch生成的图片质量和文本匹配度一直在提升,而其他方法很快就到头了。对于复杂或容易产生歧义的词语,EvoSearch能更准确地理解,生成更符合要求的图片,而且在背景、姿势等方面也更多样化。
视频生成方面更厉害。不管是Wan1.3B模型还是混元HunyuanVideo13B模型,用了EvoSearch之后,生成质量都大幅提升。最让人惊讶的是,给Wan1.3B模型分配和Wan14B模型一样的计算资源,前者配合EvoSearch的效果竟然能和后者打平,甚至超越!
而且,即使评价指标和EvoSearch搜索时用的奖励函数不一样,它也能表现得很好,不容易被误导。在人工评估中,EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的评价。
AI创作的“智能进化”时代!
EvoSearch的成功告诉我们,在训练成本越来越高的今天,通过在推理阶段投入更多计算来提升模型性能,是很有价值的。而且,把生物进化中的选择和变异思想引入AI生成领域,能有效克服传统搜索方法的局限性。
更重要的是,这项技术离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征,并据此设计了针对性的变异策略,从而能更有效地探索巨大的可能性空间。
当然,EvoSearch还有改进的空间。研究团队说,未来可以设计更智能的变异策略,更好地平衡探索和计算效率。
EvoSearch向我们展示了一个重要趋势:即使不盲目追求更大的模型和更多的训练数据,通过在推理阶段运用更智慧的搜索策略,我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的“智能进化”时代,让小模型也能创造出令人惊艳的作品!