群核科技SpatialLM:开源空间理解模型助力机器人训练新突破
近日,杭州科技公司群核科技再次引发业界关注,其开源的空间理解模型 SpatialLM 荣获谷歌论文致谢。该模型创新之处在于,通过普通视频理解物理世界的几何关系,是机器人训练领域的一大突破。
SpatialLM 的核心在于将手机视频转换为三维空间信息。用户仅需用手机拍摄家中布局,SpatialLM 便可生成详细 3D 场景,包含房间结构、家具位置和通道宽度。这大大降低了机器人训练成本,提升了训练效率。
SpatialVerse虚拟训练平台
在 GTC2025 大会上,群核科技同时展示了虚拟训练平台 SpatialVerse。该平台结合 SpatialLM 生成的数据,允许机器人在模拟环境中进行避障、抓取等训练,形成从认知到行动的闭环。简言之,机器人不仅能“看”到空间布局,还能理解如何操作。
SpatialLM 的工作原理
SpatialLM 的工作原理是将视频拆解为帧,提取物体细节并构建点云模型,再转化为结构化的 3D 布局,记录物体尺寸和位置等关键信息。与传统方法相比,SpatialLM 不仅节省资源,还提升了机器人的空间认知能力。
技术的独特之处
该技术使机器人能够像人类一样理解复杂环境变化,快速适应并执行任务。无论是家庭物品还是工作工具,SpatialLM 都能帮助机器人。这种能力对提升机器人在真实环境中的表现至关重要,尤其是在具身智能领域。
重塑机器人训练的未来
群核科技通过开源 SpatialLM 和 SpatialVerse,正在重塑机器人训练的未来,使其能够在真实世界中灵活应对各种挑战。