AI作画新玩法：小模型也能逆袭，EvoSearch让AI创作进化了！-AITOP100,AI资讯

AI作画的内卷时代结束了？小模型也能画出神作！

一直以来，咱都觉得AI作画就是个“烧钱”的游戏，谁的模型大、参数多、算力强，谁就能画出好图。但最近，香港科技大学和快手科技的研究团队搞出了个牛逼的技术，叫EvoSearch（进化搜索），直接颠覆了我的认知。

这玩意儿有多厉害？简单来说，就是用了一个只有865M参数的Stable Diffusion2.1模型，用了EvoSearch之后，画出来的图竟然比GPT-4o还好！更夸张的是，1.3B参数的Wan模型，配合EvoSearch，就能和14B的大模型打成平手！这简直是“以下克上”啊！

现在市面上主流的AI生成模型，主要就是扩散模型和流模型。扩散模型就像把模糊照片一点点变清晰，流模型则是直接把随机噪声变成你想要的图像。听起来挺高大上，但要让它们表现更好，就得疯狂堆资源：要么加大模型规模，要么喂更多数据。但这成本太高了，一般人根本玩不起。

还有一些“小聪明”，比如Best-of-N采样（生成一堆图片，选最好的），或者粒子采样（维护多个候选方案）。

但这些方法都有缺陷：Best-of-N效率太低，浪费资源；粒子采样太保守，容易陷入局部最优解。其他的微调方法，要么要额外训练，要么生成的东西没啥新意。总之，都不太给力。

EvoSearch的核心思想，就是把达尔文的“进化论”搬到了AI生成领域。它把图像生成看作一个物种进化过程：先生成一堆“初始种群”（随机噪声），然后给这些“半成品”打分，选出优秀的“个体”，再通过专门设计的“变异”操作，产生新的候选方案。

这个“变异”操作是EvoSearch最厉害的地方。对于初始噪声，它会加一些高斯噪声来“变异”；对于去噪过程，它会引入一些可控的扰动。这样既能探索新的可能性，又能保留优秀的“基因”。

相比传统方法，EvoSearch有三大优势：它是主动探索，而不是被动筛选；它能平衡探索和利用，避免过早收敛到局部最优；它很通用，各种扩散模型和流模型都能用，不用改模型结构，也不用额外训练。

研究团队在图像和视频生成上做了大量测试，结果显示，EvoSearch在各个方面都比以前的方法好太多了。

在图像生成方面，随着计算量增加，EvoSearch生成的图片质量和文本匹配度一直在提升，而其他方法很快就到头了。对于复杂或容易产生歧义的词语，EvoSearch能更准确地理解，生成更符合要求的图片，而且在背景、姿势等方面也更多样化。

视频生成方面更厉害。不管是Wan1.3B模型还是混元HunyuanVideo13B模型，用了EvoSearch之后，生成质量都大幅提升。最让人惊讶的是，给Wan1.3B模型分配和Wan14B模型一样的计算资源，前者配合EvoSearch的效果竟然能和后者打平，甚至超越！

而且，即使评价指标和EvoSearch搜索时用的奖励函数不一样，它也能表现得很好，不容易被误导。在人工评估中，EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的评价。

EvoSearch的成功告诉我们，在训练成本越来越高的今天，通过在推理阶段投入更多计算来提升模型性能，是很有价值的。而且，把生物进化中的选择和变异思想引入AI生成领域，能有效克服传统搜索方法的局限性。

更重要的是，这项技术离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征，并据此设计了针对性的变异策略，从而能更有效地探索巨大的可能性空间。

当然，EvoSearch还有改进的空间。研究团队说，未来可以设计更智能的变异策略，更好地平衡探索和计算效率。

EvoSearch向我们展示了一个重要趋势：即使不盲目追求更大的模型和更多的训练数据，通过在推理阶段运用更智慧的搜索策略，我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的“智能进化”时代，让小模型也能创造出令人惊艳的作品！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集