Meta联手港中文搞大事！Multi-SpatialMLLM模型让AI空间感爆棚！-AITOP100,AI资讯

Meta联手港中文搞大事！Multi-SpatialMLLM模型让AI空间感爆棚！

听说没？科技巨头Meta最近又放大招了！这次是联手香港中文大学，推出了一个超厉害的东东，名叫 Multi-SpatialMLLM模型。简单来说，这玩意儿让AI在空间理解方面直接开了挂！再也不用担心机器人分不清左右、搞不清方向了！

为啥要搞这么个东西呢？你想啊，现在机器人、自动驾驶啥的，对空间理解能力要求越来越高。可现在的AI，说白了还是有点“路痴”，连左右都分不清，这可咋整？主要原因就是训练数据不够，而且以前的方法只能看到静态的画面，缺少动态的信息。

为了解决这个问题，Meta的FAIR团队和港中文联手搞了个MultiSPA数据集。这数据集里有超过2700万个样本，各种3D、4D场景应有尽有，还用了Aria Digital Twin和Panoptic Studio等高质量标注数据，甚至还请来了GPT-4o来帮忙生成各种任务模板，简直壕无人性！

这个Multi-SpatialMLLM模型可不是吃素的，它整合了深度感知、视觉对应和动态感知三大组件，直接突破了以前只能看静态图像的限制。研究团队还设计了五个训练任务，包括深度感知、相机移动感知、物体大小感知等等，专门提升它在多帧空间推理方面的能力。

效果怎么样？那叫一个惊艳！在MultiSPA基准测试中，Multi-SpatialMLLM平均提升了36%，在一些定性任务中，准确率达到了80-90%，直接秒杀基础模型的50%。尤其是在预测相机移动向量这种高难度任务上，准确率也飙升到了18%！

更牛的是，在 BLINK 基准测试中，Multi-SpatialMLLM 的准确率接近90%，平均提升了26.4%，甚至超越了一些专有系统。而且，在标准的视觉问答（VQA）测试中，它也没掉链子，保持了原有的性能，说明它不只是擅长空间推理，通用能力也很强！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集