小米MiMo-VL:小身材,大能量!多模态模型界的“尖子生”
最近,小米家的MiMo系列又添猛将啦!全新推出的MiMo-VL多模态模型,那叫一个惊艳!它接过了MiMo-7B的接力棒,在图像、视频、语言各种领域都表现得超级棒,简直是全能选手!
听说这MiMo-VL在通用问答和理解推理方面,直接把同等规模的Qwen2.5-VL-7B甩在了身后,而且在GUI Grounding任务上,甚至能媲美那些专门搞这个的模型!这下,Agent时代算是真的要加速到来了!
7B参数,挑战72B!
更厉害的是,MiMo-VL-7B虽然只有7B的参数规模,但在奥林匹克竞赛和各种数学竞赛中,居然能把阿里Qwen-2.5-VL-72B和QVQ-72B-Preview这些参数大户给比下去!甚至还超越了闭源模型GPT-4o!我的天,简直是以下克上的典范!
内部评估用户体验时,MiMo-VL-7B也是一路高歌猛进,直接超过GPT-4o,成了开源模型里的佼佼者。实际用起来,它在复杂图片推理和问答上表现得非常出色,甚至能流畅地完成10多步的GUI操作。比如说,帮你把心仪的小米SU7加入到心愿单,那都不是事儿!
秘密武器:高质量数据+创新算法
MiMo-VL-7B之所以这么厉害,全靠它强大的视觉感知能力,而这又得益于高质量的预训练数据和创新的混合在线强化学习算法(MORL)。在多阶段预训练中,小米收集、清洗、合成了海量的多模态数据,包括图文、视频-文本对、GUI操作序列等等,总共有2.4T tokens!
为了强化长程多模态推理能力,他们还巧妙地分阶段调整不同类型数据的比例。混合在线强化学习更是融合了文本推理、多模态感知+推理、RLHF等多种反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型的推理、感知性能和用户体验。这简直就是开了挂啊!