• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

群核科技放大招!SpatialLM开源,3D视觉大模型人人都能玩

群核科技放大招!SpatialLM开源,3D视觉大模型人人都能玩
AI TOP100
2025-04-16 13:43:27

3D视觉大模型SpatialLM来了!手机也能秒变3D场景?

各位小伙伴,最近AI圈儿可是热闹非凡!2025年3月,杭州群核科技在GTC2025全球大会上丢了个“重磅炸弹”:他们自主研发的3D视觉大语言模型 SpatialLM 正式开源啦!这消息一出,立马引爆了整个行业,要知道,这玩意儿可是具身智能、自主导航、虚拟现实等领域的“金钥匙”啊!

SpatialLM

想当年,搞3D场景,那得是专业设备、激光雷达伺候着,成本高得吓人!现在好了,有了SpatialLM,一部手机就能搞定!这模型空间认知能力强,数据处理成本低,简直是机器人训练、建筑设计、AR/VR等领域的福音!

SpatialLM:从视频到3D,这技术有点儿牛!

SpatialLM 这款大模型,专门为三维空间理解而生。它能通过普通手机或者相机拍摄的视频,快速生成符合物理规律的3D场景布局。以前咱们得靠昂贵的激光雷达或者专业设备才能实现的功能,现在SpatialLM用处理多源点云数据(比如单目视频序列、RGBD图像、激光雷达数据)的方式,大大降低了门槛!

这模型能精准识别场景中的建筑元素(墙壁、门窗),还能识别物体的语义边界框,像“沙发 – 长1.8米 – 距墙0.5米”这种信息,它都能搞定,并用结构化的脚本语言输出,让机器像人一样理解空间!

SpatialLM 的核心技术是 MASt3R-SLAM,它能把视频拆解成帧,提取空间细节,生成高密度3D点云。然后,点云编码器把数据转化成紧凑的特征向量,大语言模型(LLM)再生成场景代码,保证输出的3D布局符合物理规则,比如“家具不能悬空”、“通道宽度必须大于0.8米”等等。这种多模态架构,完美地把非结构化的三维几何数据和结构化表示连接起来,为复杂场景分析提供了高级别的语义理解。

开源!降低开发门槛,人人都是“空间智能”专家

这次群核科技开源的 SpatialLM,提供了两种模型版本:基于 Llama 的 SpatialLM-Llama-1B 和基于 Qwen 的 SpatialLM-Qwen-0.5B,参数规模分别是 1 亿和 0.5 亿。要知道,现在的LLM动不动就是几百亿参数,相比之下,SpatialLM简直就是“轻量级选手”,高效又实用!

现在,这两个模型已经在 Hugging Face、GitHub 和魔搭社区等平台向全球开发者开放,还配备了详细的教程和测试数据集(比如 SpatialLM-Testset,包含 107 个由单目 RGB 视频重建的点云数据)。开发者只需要简单的 Python 脚本就能运行推理,还能用 Rerun 这样的可视化工具查看 3D 布局结果。

群核科技首席科学家周子寒说:“SpatialLM 的目标是帮助那些不具备模型开发能力的机器人企业,通过微调快速提升空间理解能力。” 结合群核之前开源的空间智能平台 SpatialVerse,SpatialLM 还能把现实场景转化成虚拟训练环境,生成海量的仿真场景,大大降低机器人训练的成本和风险。

应用广泛!机器人、建筑设计、AR/VR,想象力有多大,舞台就有多大

SpatialLM 的应用场景简直不要太广阔!在具身智能领域,它能让机器人在复杂环境中实现导航、避障,执行各种任务,为智能家居、服务机器人提供核心技术支持。在建筑设计与规划领域,它能分析建筑物点云数据,自动识别墙体、门窗等结构,助力高效设计。在教育培训领域,它能用于开发 3D 建模教学软件,帮助学生直观理解空间关系。在 AR/VR 和游戏开发领域,它的虚拟场景生成能力为沉浸式体验提供了低成本解决方案。

小编认为,SpatialLM 的开源,不仅展现了群核科技在空间智能领域的技术实力,也推动了 3D 视觉技术的普及和创新。相比 Meta 的 SceneScript 等模型,SpatialLM 以普通视频为输入的通用性更强。而且,未来它还会迭代自然语言交互和场景交互功能,让模型更加实用!

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • SpatialLM:三维空间理解设计大语言模型
相关资讯
  • 30集AI动画成本砍93%!Vidu AI全流程打造的<一品布衣>掀动漫制作革命

  • 高德地图联手通义大模型,推出全球首个AI原生地图Agent

  • 昆仑万维甩出“王炸”!Matrix-Game2.0开源世界模型:分钟级高连贯视频实时生成

  • 360智脑放大招!Light-IF模型破解AI“听不懂人话”难题,小模型也能碾压巨无霸

  • 智谱开源全球最强100B级视觉推理模型GLM-4.5V:多模态AI进入"全场景"时代

热点资讯

重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

6天前
重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

6天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

8天前
Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

阿里通义重磅发布Wan2.2-I2V-Flash:图生视频效率飙升12倍,成本低至0.1元/秒!

1天前
阿里通义重磅发布Wan2.2-I2V-Flash:图生视频效率飙升12倍,成本低至0.1元/秒!

马斯克xAI放大招:Grok 4永久免费!AI界"白嫖"时代来了?

1天前
马斯克xAI放大招:Grok 4永久免费!AI界"白嫖"时代来了?
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有