苹果多模态AI模型UniGen1.5正式上线，图像处理“三合一”超厉害-AITOP100,AI资讯

苹果研究团队搞出了大动静，正式上线了最新的多模态AI模型UniGen1.5。这可不是一般的模型，它标志着图像处理技术向前迈进了一大步。以往处理图像得靠好几个不同的工具，现在UniGen1.5一个模型就能搞定图像理解、生成和编辑三大功能，这效率提升可不是一星半点，难道还不让人期待吗？和传统那些分开处理图像不同功能的模型相比，UniGen1.5简直太方便了。

论文地址： https://arxiv.org/abs/2511.14760

苹果UniGen1.5

统一框架：功能整合，输出更优质

UniGen1.5可不简单，它采用了统一框架，把图像理解、生成和编辑这三个功能都整合到了一起。研究人员说，这种集成设计可有大好处。模型在生成图像的时候，能充分用上它强大的图像理解能力，这样生成的视觉输出质量就更高啦。就好比一个厨师，既懂食材的特性，又能巧妙搭配，做出来的菜肯定好吃。

编辑指令对齐：“先想后画”，修改更精准

在图像编辑方面，UniGen1.5有个创新玩法，叫“编辑指令对齐”技术。这技术可有意思了，它不是直接上手修改图像，而是先让模型根据原图和指令生成详细的文本描述，把用户的编辑意图先捕捉清楚。这就像画画前先在脑海里构思好画面，然后再动笔，这样画出来的画肯定更符合心意。这种“先想后画”的方法，大大提高了模型对复杂修改请求的理解和执行准确性。

值得一提的是，图像编辑领域一直是个难题，很多模型在处理复杂编辑请求时都容易出错，而UniGen1.5的这项技术很好地解决了这个问题。

强化学习：统一奖励，表现更稳定

UniGen1.5在强化学习上也有新突破。研究团队设计了一个统一的奖励系统，这个系统能同时用在图像生成和编辑的训练上。以前在编辑任务里，质量标准不一致是个大问题，不同的人对编辑效果的要求不一样，模型很难把握。现在有了这个统一的奖励系统，模型在处理各种视觉任务时就能保持高水平的表现啦。

测试表现：成绩优异，竞争力强劲

在多项行业标准测试中，UniGen1.5那表现简直太亮眼了。在GenEval和DPG - Bench测试里，它分别拿到了0.89和86.83的高分，把BAGEL和BLIP3o等其他热门模型远远甩在了后面。

在专门的图像编辑测试ImgEdit中，它的得分是4.31，不仅超过了开源模型OminiGen2，还和专有闭源模型GPT - Image - 1表现差不多。

下面来看看具体对比：

模型名称	GenEval得分	DPG - Bench得分	ImgEdit得分
UniGen1.5	0.89	86.83	4.31
BAGEL	-	-	-
BLIP3o	-	-	-
OminiGen2	-	-	低于4.31
GPT - Image - 1	-	-	约4.31

仍有不足：持续优化，未来可期

虽然UniGen1.5表现很出色，但研究人员也清楚，它还有需要改进的地方。比如说，模型在生成图像里的文字时容易出错，有时候生成的字不是多就是少，或者干脆是错的。还有在特定编辑场景中，模型可能会导致主体特征的漂移，像动物的毛发纹理和颜色可能会出现偏差。不过没关系，苹果团队已经打算继续努力，优化这些问题，让UniGen1.5变得更完美。

UniGen1.5的出现，给图像处理领域带来了新的希望。相信在未来，它会不断进化，给开发者们带来更多惊喜，推动整个行业向前发展。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群 AIGC大赛社群