苹果研究团队搞出了大动静,正式上线了最新的多模态AI模型UniGen1.5。这可不是一般的模型,它标志着图像处理技术向前迈进了一大步。以往处理图像得靠好几个不同的工具,现在UniGen1.5一个模型就能搞定图像理解、生成和编辑三大功能,这效率提升可不是一星半点,难道还不让人期待吗?和传统那些分开处理图像不同功能的模型相比,UniGen1.5简直太方便了。
论文地址: https://arxiv.org/abs/2511.14760

统一框架:功能整合,输出更优质
UniGen1.5可不简单,它采用了统一框架,把图像理解、生成和编辑这三个功能都整合到了一起。研究人员说,这种集成设计可有大好处。模型在生成图像的时候,能充分用上它强大的图像理解能力,这样生成的视觉输出质量就更高啦。就好比一个厨师,既懂食材的特性,又能巧妙搭配,做出来的菜肯定好吃。
编辑指令对齐:“先想后画”,修改更精准
在图像编辑方面,UniGen1.5有个创新玩法,叫“编辑指令对齐”技术。这技术可有意思了,它不是直接上手修改图像,而是先让模型根据原图和指令生成详细的文本描述,把用户的编辑意图先捕捉清楚。这就像画画前先在脑海里构思好画面,然后再动笔,这样画出来的画肯定更符合心意。这种“先想后画”的方法,大大提高了模型对复杂修改请求的理解和执行准确性。
值得一提的是,图像编辑领域一直是个难题,很多模型在处理复杂编辑请求时都容易出错,而UniGen1.5的这项技术很好地解决了这个问题。
强化学习:统一奖励,表现更稳定
UniGen1.5在强化学习上也有新突破。研究团队设计了一个统一的奖励系统,这个系统能同时用在图像生成和编辑的训练上。以前在编辑任务里,质量标准不一致是个大问题,不同的人对编辑效果的要求不一样,模型很难把握。现在有了这个统一的奖励系统,模型在处理各种视觉任务时就能保持高水平的表现啦。
测试表现:成绩优异,竞争力强劲
在多项行业标准测试中,UniGen1.5那表现简直太亮眼了。在GenEval和DPG - Bench测试里,它分别拿到了0.89和86.83的高分,把BAGEL和BLIP3o等其他热门模型远远甩在了后面。
在专门的图像编辑测试ImgEdit中,它的得分是4.31,不仅超过了开源模型OminiGen2,还和专有闭源模型GPT - Image - 1表现差不多。
下面来看看具体对比:
| 模型名称 | GenEval得分 | DPG - Bench得分 | ImgEdit得分 |
|---|---|---|---|
| UniGen1.5 | 0.89 | 86.83 | 4.31 |
| BAGEL | - | - | - |
| BLIP3o | - | - | - |
| OminiGen2 | - | - | 低于4.31 |
| GPT - Image - 1 | - | - | 约4.31 |
仍有不足:持续优化,未来可期
虽然UniGen1.5表现很出色,但研究人员也清楚,它还有需要改进的地方。比如说,模型在生成图像里的文字时容易出错,有时候生成的字不是多就是少,或者干脆是错的。还有在特定编辑场景中,模型可能会导致主体特征的漂移,像动物的毛发纹理和颜色可能会出现偏差。不过没关系,苹果团队已经打算继续努力,优化这些问题,让UniGen1.5变得更完美。
UniGen1.5的出现,给图像处理领域带来了新的希望。相信在未来,它会不断进化,给开发者们带来更多惊喜,推动整个行业向前发展。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:










