全新GoT-R1多模态模型登场：AI画图“智商”飙升-AITOP100,AI资讯

图像生成难题待解，GoT-R1应运而生

在AI图像生成领域，虽然现有的多模态大模型在根据文本提示生成图像方面已经取得了不小的进步，但面对一些涉及精准空间关系和复杂组合的指令时，它们就像遇到了“拦路虎”，常常力不从心。

不过，最近来自香港大学、香港中文大学以及商汤科技的研究团队带来了一个好消息——他们发布了一个全新的框架GoT-R1。这个多模态大模型就像给AI画图装上了“聪明大脑”，通过引入强化学习（RL），在视觉生成任务中大幅提升了AI的语义和空间推理能力，能够轻松应对复杂的文本提示，生成高保真、语义一致的图像。这一进展无疑标志着图像生成技术又向前迈进了一大步。

GoT-R1多模态模型

与前身相比，GoT-R1实现质的飞跃

GoT-R1可不是凭空出现的，它是在前身GoT的基础上进行升级改造而来的。和GoT相比，GoT-R1不仅进一步扩展了AI的推理能力，还赋予了它自主学习和优化推理策略的能力。这就好比一个原本只会按部就班完成任务的学生，现在学会了独立思考，还能不断改进自己的学习方法，变得更加优秀。

GoT-R1多模态模型

强化学习机制：GoT-R1的核心法宝

全面奖励机制，助力理解复杂指令

GoT-R1的核心就在于它的强化学习机制。研究团队精心设计了一套全面有效的奖励机制，就像给模型制定了一套“评分标准”。这套机制涵盖了多个评估维度，包括生成图像的语义一致性、空间布局准确性和整体美学质量。通过这些维度的评估，模型在生成图像时就能更好地理解用户的复杂指令，知道什么样的图像才是用户想要的。