3D视觉大模型SpatialLM来了!手机也能秒变3D场景?
各位小伙伴,最近AI圈儿可是热闹非凡!2025年3月,杭州群核科技在GTC2025全球大会上丢了个“重磅炸弹”:他们自主研发的3D视觉大语言模型 SpatialLM 正式开源啦!这消息一出,立马引爆了整个行业,要知道,这玩意儿可是具身智能、自主导航、虚拟现实等领域的“金钥匙”啊!
想当年,搞3D场景,那得是专业设备、激光雷达伺候着,成本高得吓人!现在好了,有了SpatialLM,一部手机就能搞定!这模型空间认知能力强,数据处理成本低,简直是机器人训练、建筑设计、AR/VR等领域的福音!
SpatialLM:从视频到3D,这技术有点儿牛!
SpatialLM 这款大模型,专门为三维空间理解而生。它能通过普通手机或者相机拍摄的视频,快速生成符合物理规律的3D场景布局。以前咱们得靠昂贵的激光雷达或者专业设备才能实现的功能,现在SpatialLM用处理多源点云数据(比如单目视频序列、RGBD图像、激光雷达数据)的方式,大大降低了门槛!
这模型能精准识别场景中的建筑元素(墙壁、门窗),还能识别物体的语义边界框,像“沙发 – 长1.8米 – 距墙0.5米”这种信息,它都能搞定,并用结构化的脚本语言输出,让机器像人一样理解空间!
SpatialLM 的核心技术是 MASt3R-SLAM,它能把视频拆解成帧,提取空间细节,生成高密度3D点云。然后,点云编码器把数据转化成紧凑的特征向量,大语言模型(LLM)再生成场景代码,保证输出的3D布局符合物理规则,比如“家具不能悬空”、“通道宽度必须大于0.8米”等等。这种多模态架构,完美地把非结构化的三维几何数据和结构化表示连接起来,为复杂场景分析提供了高级别的语义理解。
开源!降低开发门槛,人人都是“空间智能”专家
这次群核科技开源的 SpatialLM,提供了两种模型版本:基于 Llama 的 SpatialLM-Llama-1B 和基于 Qwen 的 SpatialLM-Qwen-0.5B,参数规模分别是 1 亿和 0.5 亿。要知道,现在的LLM动不动就是几百亿参数,相比之下,SpatialLM简直就是“轻量级选手”,高效又实用!
现在,这两个模型已经在 Hugging Face、GitHub 和魔搭社区等平台向全球开发者开放,还配备了详细的教程和测试数据集(比如 SpatialLM-Testset,包含 107 个由单目 RGB 视频重建的点云数据)。开发者只需要简单的 Python 脚本就能运行推理,还能用 Rerun 这样的可视化工具查看 3D 布局结果。
群核科技首席科学家周子寒说:“SpatialLM 的目标是帮助那些不具备模型开发能力的机器人企业,通过微调快速提升空间理解能力。” 结合群核之前开源的空间智能平台 SpatialVerse,SpatialLM 还能把现实场景转化成虚拟训练环境,生成海量的仿真场景,大大降低机器人训练的成本和风险。
应用广泛!机器人、建筑设计、AR/VR,想象力有多大,舞台就有多大
SpatialLM 的应用场景简直不要太广阔!在具身智能领域,它能让机器人在复杂环境中实现导航、避障,执行各种任务,为智能家居、服务机器人提供核心技术支持。在建筑设计与规划领域,它能分析建筑物点云数据,自动识别墙体、门窗等结构,助力高效设计。在教育培训领域,它能用于开发 3D 建模教学软件,帮助学生直观理解空间关系。在 AR/VR 和游戏开发领域,它的虚拟场景生成能力为沉浸式体验提供了低成本解决方案。
小编认为,SpatialLM 的开源,不仅展现了群核科技在空间智能领域的技术实力,也推动了 3D 视觉技术的普及和创新。相比 Meta 的 SceneScript 等模型,SpatialLM 以普通视频为输入的通用性更强。而且,未来它还会迭代自然语言交互和场景交互功能,让模型更加实用!