目前,AI生成图像的质量备受各位AI创作者的关注。然而,开源文生图模型Flux却存在一个令人头疼的问题——生成的人物皮肤质感“过油”,显得过于光滑和不自然,这在一定程度上限制了其在数字艺术创作等领域的应用。
不过,在2025年9月17日,腾讯混元微信公众号发文宣布腾讯混元团队携手香港中文大学(深圳)及清华大学,带来了一个令人振奋的解决方案——SRPO(语义相对偏好优化)技术,有望为AI生图领域带来新的的改变。
SRPO技术:从问题根源出发的创新突破
传统的生成优化方法存在明显短板,它们往往只聚焦于生成过程的后半段,这就容易导致在高频信息上出现过拟合的问题。想象一下,就像盖房子只注重屋顶的装饰,而忽略了地基和墙体的稳固,最终房子肯定不结实。AI生成图像也是如此,只关注后半段优化,生成的图像可能细节上看起来不错,但整体真实感却大打折扣。
腾讯混元团队针对这一问题,创新性地提出了Direct - Align策略。这一策略就像是给图像生成过程安装了一个精准的导航仪。团队向输入图像注入可控噪声,并将其作为参考锚点进行图像重建。通过这种方式,显著降低了重建误差,实现了更精准的奖励信号传导。更重要的是,它支持对生成轨迹的前半段进行优化,有效解决了过拟合问题,让AI生成图像从一开始就朝着更真实的方向发展。
语义偏好:为奖励模型指明方向
SRPO技术的核心亮点之一是引入了“语义偏好”的概念。在AI生成图像的过程中,奖励模型就像是一位严格的老师,它决定了生成图像的质量和方向。但传统的奖励模型可能缺乏明确的引导,导致生成的图像不够理想。
腾讯混元团队通过添加特定控制提示词,比如“真实感”,来调整奖励模型的优化目标。这就好比给老师提供了一份详细的教学大纲,让老师清楚知道要培养学生哪些方面的能力。实验结果表明,这种方法在提高生成图像真实度方面效果显著,生成的人物皮肤质感更加自然,不再有那种“油腻”的感觉。
不过,研究人员也意识到,单一的语义引导可能会带来新的问题——奖励破解。就像学生可能会找到老师的评分漏洞,通过一些取巧的方式获得高分,而不是真正掌握了知识。
为了避免这种情况,团队创新性地引入了“语义相对偏好优化”策略,利用正向和负向词汇作为引导信号,就像给老师提供了正反两面的教材,让奖励模型能够更全面、准确地评估生成图像的质量,中和奖励模型的偏差。
训练效率与效果双提升
在追求技术突破的同时,训练效率也是衡量一项技术优劣的重要指标。SRPO技术在这方面同样表现出色,它的训练效率极高,仅需10分钟便能超越现有的DanceGRPO方法。这就好比一场赛车比赛,SRPO技术驾驶着高性能赛车,在短时间内就超过了其他竞争对手。
研究显示,SRPO技术在真实度和美学评分上提升超过三倍,并且训练时间相较于传统方法降低了75倍。这意味着,使用SRPO技术,不仅可以在更短的时间内生成更高质量的图像,还能大大节省计算资源和成本。对于数字艺术创作者来说,这无疑是一个巨大的福音,他们可以用更少的时间和精力,创作出更具真实感和美感的作品。
未来:数字艺术新可能
随着SRPO技术的不断普及和完善,未来AI生成图像的真实感将得到极大提高。无论是游戏开发、影视制作还是广告设计等领域,都将受益于这一技术。想象一下,在游戏中,玩家可以看到更加逼真的人物角色和场景;在影视作品中,特效画面更加真实自然,让观众仿佛身临其境;在广告设计中,产品展示更加生动形象,吸引消费者的目光。
腾讯混元团队的SRPO技术为AI生图领域注入了新的活力,它不仅解决了现有模型存在的问题,还为未来的发展指明了方向。相信在不久的将来,我们将看到更多由AI生成的、具有高度真实感的数字艺术作品,为我们的生活增添更多色彩。
github地址:https://tencent.github.io/srpo-project-page/ (海外网站需要科学上网)
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: