字节跳动放大招！开源多模态模型BAGEL，图像编辑能力惊艳！-AITOP100,AI资讯

AI圈又炸了！字节跳动开源BAGEL多模态模型，图像处理能力杠杠的！

最近，AI圈儿又热闹了，字节跳动憋了个大招，直接开源了一款叫做BAGEL的多模态基础模型。这玩意儿厉害了，虽然只有70亿个活跃参数，但整体参数量达到了140亿！别看参数不多，效果那是相当给力，在各种多模态理解测试中，直接把Qwen2.5-VL和InternVL-2.5这些开源大佬给干趴下了。

图像生成、编辑一把抓，BAGEL实力不容小觑

更牛的是，BAGEL在图像生成方面的表现，竟然能和专业的SD3相媲美。这还不算完，在经典的图像编辑场景里，它的效果也远超许多领先的开源模型。简单来说，以后想P图，用BAGEL就能搞定，而且效果绝对让你惊艳！

BAGEL背后的秘密：混合Transformer专家架构（MoT）

BAGEL之所以这么厉害，得益于它采用了一种叫做混合变换器专家（MoT）的架构。这种架构能最大限度地提升模型学习各种多模态信息的能力。它用了两个独立的编码器，一个用来捕捉图像的像素级特征，另一个用来捕捉图像的语义级特征。整个模型框架遵循 “下一个标记组预测” 的套路，训练的时候就盯着预测下一个语言或视觉标记，目的就是为了压缩信息。