AI圈又炸了!字节跳动开源BAGEL多模态模型,图像处理能力杠杠的!
最近,AI圈儿又热闹了,字节跳动憋了个大招,直接开源了一款叫做BAGEL的多模态基础模型。这玩意儿厉害了,虽然只有70亿个活跃参数,但整体参数量达到了140亿!别看参数不多,效果那是相当给力,在各种多模态理解测试中,直接把Qwen2.5-VL和InternVL-2.5这些开源大佬给干趴下了。
图像生成、编辑一把抓,BAGEL实力不容小觑
更牛的是,BAGEL在图像生成方面的表现,竟然能和专业的SD3相媲美。这还不算完,在经典的图像编辑场景里,它的效果也远超许多领先的开源模型。简单来说,以后想P图,用BAGEL就能搞定,而且效果绝对让你惊艳!
BAGEL背后的秘密:混合Transformer专家架构(MoT)
BAGEL之所以这么厉害,得益于它采用了一种叫做混合变换器专家(MoT)的架构。这种架构能最大限度地提升模型学习各种多模态信息的能力。它用了两个独立的编码器,一个用来捕捉图像的像素级特征,另一个用来捕捉图像的语义级特征。整个模型框架遵循 “下一个标记组预测” 的套路,训练的时候就盯着预测下一个语言或视觉标记,目的就是为了压缩信息。
海量数据喂养,成就BAGEL的强大能力
为了训练BAGEL,字节跳动可是下了血本,用了来自语言、图像、视频和网络数据的数万亿个多模态标记进行预训练。经过持续训练和监督微调,BAGEL在各种标准测试中都超过了其他开源模型,展示了它在多模态方面的强大能力,比如自由形式图像编辑、预测未来帧、进行三维操作和世界导航等等。
持续训练,能力不断进化
研究人员发现,随着BAGEL的预训练不断深入,它在理解、生成和编辑任务中的表现也在不断提升。而且,不同的能力会在训练的不同阶段出现,比如多模态理解和生成能力在早期就展现出来了,而更复杂的智能编辑能力则在后期才慢慢显现。
研究还表明,将变分自编码器(VAE)和视觉变换器(ViT)的特征结合起来,能显著提升智能编辑能力,这也强调了视觉 - 语义上下文在复杂多模态推理中的重要性。
总而言之,字节跳动这次开源的BAGEL,绝对是AI圈的一颗重磅炸弹,它不仅性能强悍,而且还具备了强大的图像处理能力,未来可期!
项目地址:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT