群核科技放大招！SpatialLM开源，3D视觉大模型人人都能玩-AITOP100,AI资讯

3D视觉大模型 SpatialLM来了！手机也能秒变3D场景？

各位小伙伴，最近AI圈儿可是热闹非凡！2025年3月，杭州群核科技在GTC2025全球大会上丢了个“重磅炸弹”：他们自主研发的3D视觉大语言模型 SpatialLM 正式开源啦！这消息一出，立马引爆了整个行业，要知道，这玩意儿可是具身智能、自主导航、虚拟现实等领域的“金钥匙”啊！

想当年，搞3D场景，那得是专业设备、激光雷达伺候着，成本高得吓人！现在好了，有了SpatialLM，一部手机就能搞定！这模型空间认知能力强，数据处理成本低，简直是机器人训练、建筑设计、AR/VR等领域的福音！

SpatialLM：从视频到3D，这技术有点儿牛！

SpatialLM 这款大模型，专门为三维空间理解而生。它能通过普通手机或者相机拍摄的视频，快速生成符合物理规律的3D场景布局。以前咱们得靠昂贵的激光雷达或者专业设备才能实现的功能，现在SpatialLM用处理多源点云数据（比如单目视频序列、RGBD图像、激光雷达数据）的方式，大大降低了门槛！

这模型能精准识别场景中的建筑元素（墙壁、门窗），还能识别物体的语义边界框，像“沙发 – 长1.8米 – 距墙0.5米”这种信息，它都能搞定，并用结构化的脚本语言输出，让机器像人一样理解空间！

SpatialLM 的核心技术是 MASt3R-SLAM，它能把视频拆解成帧，提取空间细节，生成高密度3D点云。然后，点云编码器把数据转化成紧凑的特征向量，大语言模型（LLM）再生成场景代码，保证输出的3D布局符合物理规则，比如“家具不能悬空”、“通道宽度必须大于0.8米”等等。这种多模态架构，完美地把非结构化的三维几何数据和结构化表示连接起来，为复杂场景分析提供了高级别的语义理解。

开源！降低开发门槛，人人都是“空间智能”专家

这次群核科技开源的 SpatialLM，提供了两种模型版本：基于 Llama 的 SpatialLM-Llama-1B 和基于 Qwen 的 SpatialLM-Qwen-0.5B，参数规模分别是 1 亿和 0.5 亿。要知道，现在的LLM动不动就是几百亿参数，相比之下，SpatialLM简直就是“轻量级选手”，高效又实用！

现在，这两个模型已经在 Hugging Face、GitHub 和魔搭社区等平台向全球开发者开放，还配备了详细的教程和测试数据集（比如 SpatialLM-Testset，包含 107 个由单目 RGB 视频重建的点云数据）。开发者只需要简单的 Python 脚本就能运行推理，还能用 Rerun 这样的可视化工具查看 3D 布局结果。

群核科技首席科学家周子寒说：“SpatialLM 的目标是帮助那些不具备模型开发能力的机器人企业，通过微调快速提升空间理解能力。” 结合群核之前开源的空间智能平台 SpatialVerse，SpatialLM 还能把现实场景转化成虚拟训练环境，生成海量的仿真场景，大大降低机器人训练的成本和风险。

应用广泛！机器人、建筑设计、AR/VR，想象力有多大，舞台就有多大

SpatialLM 的应用场景简直不要太广阔！在具身智能领域，它能让机器人在复杂环境中实现导航、避障，执行各种任务，为智能家居、服务机器人提供核心技术支持。在建筑设计与规划领域，它能分析建筑物点云数据，自动识别墙体、门窗等结构，助力高效设计。在教育培训领域，它能用于开发 3D 建模教学软件，帮助学生直观理解空间关系。在 AR/VR 和游戏开发领域，它的虚拟场景生成能力为沉浸式体验提供了低成本解决方案。

小编认为，SpatialLM 的开源，不仅展现了群核科技在空间智能领域的技术实力，也推动了 3D 视觉技术的普及和创新。相比 Meta 的 SceneScript 等模型，SpatialLM 以普通视频为输入的通用性更强。而且，未来它还会迭代自然语言交互和场景交互功能，让模型更加实用！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集