单张图片生成可探索3D世界：NVIDIA开源Lyra 2.0模型-AITOP100,AI资讯

单张图片生成可探索3D世界：NVIDIA 开源 Lyra 2.0

这个有点意思。NVIDIA 开源了 Lyra 2.0，从单张图片就能生成一个可以自由行走的 3D世界。更关键的是，它解决了长视频生成的两大难题：空间遗忘和时间漂移。

模型地址： https://huggingface.co/nvidia/Lyra-2.0

论文地址：https://huggingface.co/papers/2604.13036

NVIDIA开源Lyra 2.0模型

痛点：长视频生成的"失忆症"

传统长时程视频生成有个大问题：相机长距离移动时，模型会"忘记"之前生成区域的细节，导致场景不一致——这就是"空间遗忘"。同时，物体的位置、外观会随时间逐渐偏移——这是"时间漂移"。这两个问题严重影响后续的 3D 重建。

简单说，就是模型"记性不好"，走着走着就忘了之前长什么样，或者东西慢慢"跑偏"了。

Lyra 2.0 用了两招来解决这些问题：

空间记忆机制：为每一帧维护 3D 几何信息，但只用于信息路由——检索相关历史帧、建立密集对应关系。外观合成仍依赖强大的生成先验，避免几何误差积累。

自增强训练策略：训练时让模型接触自己生成的退化输出，教会它主动纠正漂移，而不是继续传播错误。这样就能实现更长的 3D 一致视频轨迹。

整个流程是这样的：

实验显示，Lyra 2.0 在场景规模和一致性上超越了 GEN3C、CaM、Yume-1.5 等现有方法。生成的场景可达数十米范围，用户能自由"走回去"、环顾四周，甚至投放机器人进行实时交互。

Lyra 2.0 的底层视频骨干基于 Wan-14B 等强大扩散模型，重建阶段结合 Depth Anything V3 等工具，确保输出高质量且实用。模型权重已在 Hugging Face 开放，代码仓库同步上线 GitHub，采用 Apache 2.0 许可，支持商业使用。

这意味着，开发者可以直接拿来用，构建自己的 3D 世界生成应用。

Lyra 2.0 特别适用于三个场景：

机器人训练：生成一致的仿真环境，直接导入 Isaac Sim，用于 embodied AI 训练。

游戏与沉浸式内容：快速构建可探索的虚拟世界，降低开发成本。

3D 资产生成管道：从概念图到可编辑网格，一站式完成。

相比早期版本，Lyra 2.0 在场景持久性和可扩展性上实现了显著飞跃，为"世界模型"从演示走向实用资产铺平了道路。

NVIDIA 这次开源，不仅展示了生成式 AI 在时空建模上的技术突破，更体现了行业向开放生态的持续投入。随着这类工具的普及，开发者将能更高效地构建大规模、可交互的 3D 世界，推动机器人、自动驾驶和元宇宙应用的落地。

短期来看，Lyra 2.0 会降低 3D 场景生成的门槛，让更多开发者能快速构建虚拟环境；长期来看，这种从图片到 3D 世界的技术，可能会成为游戏开发、机器人训练的标准工具之一。

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码