小米MiMo-VL：小身材，大能量！多模态模型界的“尖子生”-AITOP100,AI资讯

小米MiMo-VL：小身材，大能量！多模态模型界的“尖子生”

最近，小米家的MiMo系列又添猛将啦！全新推出的MiMo-VL多模态模型，那叫一个惊艳！它接过了MiMo-7B的接力棒，在图像、视频、语言各种领域都表现得超级棒，简直是全能选手！

听说这MiMo-VL在通用问答和理解推理方面，直接把同等规模的Qwen2.5-VL-7B甩在了身后，而且在GUI Grounding任务上，甚至能媲美那些专门搞这个的模型！这下，Agent时代算是真的要加速到来了！

更厉害的是，MiMo-VL-7B虽然只有7B的参数规模，但在奥林匹克竞赛和各种数学竞赛中，居然能把阿里Qwen-2.5-VL-72B和QVQ-72B-Preview这些参数大户给比下去！甚至还超越了闭源模型GPT-4o！我的天，简直是以下克上的典范！

内部评估用户体验时，MiMo-VL-7B也是一路高歌猛进，直接超过GPT-4o，成了开源模型里的佼佼者。实际用起来，它在复杂图片推理和问答上表现得非常出色，甚至能流畅地完成10多步的GUI操作。比如说，帮你把心仪的小米SU7加入到心愿单，那都不是事儿！

MiMo-VL-7B之所以这么厉害，全靠它强大的视觉感知能力，而这又得益于高质量的预训练数据和创新的混合在线强化学习算法（MORL）。在多阶段预训练中，小米收集、清洗、合成了海量的多模态数据，包括图文、视频-文本对、GUI操作序列等等，总共有2.4T tokens！

为了强化长程多模态推理能力，他们还巧妙地分阶段调整不同类型数据的比例。混合在线强化学习更是融合了文本推理、多模态感知+推理、RLHF等多种反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升模型的推理、感知性能和用户体验。这简直就是开了挂啊！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集