单张图片生成可探索3D世界:NVIDIA 开源 Lyra 2.0
这个有点意思。NVIDIA 开源了 Lyra 2.0,从单张图片就能生成一个可以自由行走的 3D世界。更关键的是,它解决了长视频生成的两大难题:空间遗忘和时间漂移。
模型地址: https://huggingface.co/nvidia/Lyra-2.0
论文地址:https://huggingface.co/papers/2604.13036

痛点:长视频生成的"失忆症"
传统长时程视频生成有个大问题:相机长距离移动时,模型会"忘记"之前生成区域的细节,导致场景不一致——这就是"空间遗忘"。同时,物体的位置、外观会随时间逐渐偏移——这是"时间漂移"。这两个问题严重影响后续的 3D 重建。
简单说,就是模型"记性不好",走着走着就忘了之前长什么样,或者东西慢慢"跑偏"了。
Lyra 2.0的解决方案:空间记忆 + 自增强训练
Lyra 2.0 用了两招来解决这些问题:
空间记忆机制:为每一帧维护 3D 几何信息,但只用于信息路由——检索相关历史帧、建立密集对应关系。外观合成仍依赖强大的生成先验,避免几何误差积累。
自增强训练策略:训练时让模型接触自己生成的退化输出,教会它主动纠正漂移,而不是继续传播错误。这样就能实现更长的 3D 一致视频轨迹。
使用流程:从图片到可探索3D世界
整个流程是这样的:
- 输入一张图片(可选配文本提示)
- 通过交互式 3D 浏览器定义相机移动轨迹
- 模型自回归生成相机控制的长视频片段
- 将视频序列提升为显式 3D 表示(点云、Gaussian 或网格)
- 导出可用于 Unity、Unreal、Isaac Sim 等环境的资产
实验显示,Lyra 2.0 在场景规模和一致性上超越了 GEN3C、CaM、Yume-1.5 等现有方法。生成的场景可达数十米范围,用户能自由"走回去"、环顾四周,甚至投放机器人进行实时交互。
技术细节:基于 Wan-14B 扩散模型
Lyra 2.0 的底层视频骨干基于 Wan-14B 等强大扩散模型,重建阶段结合 Depth Anything V3 等工具,确保输出高质量且实用。模型权重已在 Hugging Face 开放,代码仓库同步上线 GitHub,采用 Apache 2.0 许可,支持商业使用。
这意味着,开发者可以直接拿来用,构建自己的 3D 世界生成应用。
应用价值:机器人训练、游戏开发、虚拟世界
Lyra 2.0 特别适用于三个场景:
机器人训练:生成一致的仿真环境,直接导入 Isaac Sim,用于 embodied AI 训练。
游戏与沉浸式内容:快速构建可探索的虚拟世界,降低开发成本。
3D 资产生成管道:从概念图到可编辑网格,一站式完成。
相比早期版本,Lyra 2.0 在场景持久性和可扩展性上实现了显著飞跃,为"世界模型"从演示走向实用资产铺平了道路。
行业意义:生成式 AI 的时空建模突破
NVIDIA 这次开源,不仅展示了生成式 AI 在时空建模上的技术突破,更体现了行业向开放生态的持续投入。随着这类工具的普及,开发者将能更高效地构建大规模、可交互的 3D 世界,推动机器人、自动驾驶和元宇宙应用的落地。
短期来看,Lyra 2.0 会降低 3D 场景生成的门槛,让更多开发者能快速构建虚拟环境;长期来看,这种从图片到 3D 世界的技术,可能会成为游戏开发、机器人训练的标准工具之一。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










