Meta联手港中文搞大事!Multi-SpatialMLLM模型让AI空间感爆棚!
听说没?科技巨头Meta最近又放大招了!这次是联手香港中文大学,推出了一个超厉害的东东,名叫 Multi-SpatialMLLM模型。简单来说,这玩意儿让AI在空间理解方面直接开了挂!再也不用担心机器人分不清左右、搞不清方向了!
为啥要搞这么个东西呢?你想啊,现在机器人、自动驾驶啥的,对空间理解能力要求越来越高。可现在的AI,说白了还是有点“路痴”,连左右都分不清,这可咋整?主要原因就是训练数据不够,而且以前的方法只能看到静态的画面,缺少动态的信息。
MultiSPA数据集:海量数据喂饱AI!
为了解决这个问题,Meta的FAIR团队和港中文联手搞了个MultiSPA数据集。这数据集里有超过2700万个样本,各种3D、4D场景应有尽有,还用了Aria Digital Twin和Panoptic Studio等高质量标注数据,甚至还请来了GPT-4o来帮忙生成各种任务模板,简直壕无人性!
三大组件加持,空间推理能力杠杠的!
这个Multi-SpatialMLLM模型可不是吃素的,它整合了深度感知、视觉对应和动态感知三大组件,直接突破了以前只能看静态图像的限制。研究团队还设计了五个训练任务,包括深度感知、相机移动感知、物体大小感知等等,专门提升它在多帧空间推理方面的能力。
测试结果:简直是开挂!
效果怎么样?那叫一个惊艳!在MultiSPA基准测试中,Multi-SpatialMLLM平均提升了36%,在一些定性任务中,准确率达到了80-90%,直接秒杀基础模型的50%。尤其是在预测相机移动向量这种高难度任务上,准确率也飙升到了18%!
BLINK测试:接近90%准确率!
更牛的是,在 BLINK 基准测试中,Multi-SpatialMLLM 的准确率接近90%,平均提升了26.4%,甚至超越了一些专有系统。而且,在标准的视觉问答(VQA)测试中,它也没掉链子,保持了原有的性能,说明它不只是擅长空间推理,通用能力也很强!