• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

单张图片生成可探索3D世界:NVIDIA开源Lyra 2.0模型

单张图片生成可探索3D世界:NVIDIA开源Lyra 2.0模型
AI TOP100
24天前

单张图片生成可探索3D世界:NVIDIA 开源 Lyra 2.0

这个有点意思。NVIDIA 开源了 Lyra 2.0,从单张图片就能生成一个可以自由行走的 3D世界。更关键的是,它解决了长视频生成的两大难题:空间遗忘和时间漂移。

模型地址: https://huggingface.co/nvidia/Lyra-2.0

论文地址:https://huggingface.co/papers/2604.13036

NVIDIA开源Lyra 2.0模型

痛点:长视频生成的"失忆症"

传统长时程视频生成有个大问题:相机长距离移动时,模型会"忘记"之前生成区域的细节,导致场景不一致——这就是"空间遗忘"。同时,物体的位置、外观会随时间逐渐偏移——这是"时间漂移"。这两个问题严重影响后续的 3D 重建。

简单说,就是模型"记性不好",走着走着就忘了之前长什么样,或者东西慢慢"跑偏"了。

Lyra 2.0的解决方案:空间记忆 + 自增强训练

Lyra 2.0 用了两招来解决这些问题:

空间记忆机制:为每一帧维护 3D 几何信息,但只用于信息路由——检索相关历史帧、建立密集对应关系。外观合成仍依赖强大的生成先验,避免几何误差积累。

自增强训练策略:训练时让模型接触自己生成的退化输出,教会它主动纠正漂移,而不是继续传播错误。这样就能实现更长的 3D 一致视频轨迹。


使用流程:从图片到可探索3D世界

整个流程是这样的:

  1. 输入一张图片(可选配文本提示)
  2. 通过交互式 3D 浏览器定义相机移动轨迹
  3. 模型自回归生成相机控制的长视频片段
  4. 将视频序列提升为显式 3D 表示(点云、Gaussian 或网格)
  5. 导出可用于 Unity、Unreal、Isaac Sim 等环境的资产

实验显示,Lyra 2.0 在场景规模和一致性上超越了 GEN3C、CaM、Yume-1.5 等现有方法。生成的场景可达数十米范围,用户能自由"走回去"、环顾四周,甚至投放机器人进行实时交互。

技术细节:基于 Wan-14B 扩散模型

Lyra 2.0 的底层视频骨干基于 Wan-14B 等强大扩散模型,重建阶段结合 Depth Anything V3 等工具,确保输出高质量且实用。模型权重已在 Hugging Face 开放,代码仓库同步上线 GitHub,采用 Apache 2.0 许可,支持商业使用。

这意味着,开发者可以直接拿来用,构建自己的 3D 世界生成应用。

应用价值:机器人训练、游戏开发、虚拟世界

Lyra 2.0 特别适用于三个场景:

机器人训练:生成一致的仿真环境,直接导入 Isaac Sim,用于 embodied AI 训练。

游戏与沉浸式内容:快速构建可探索的虚拟世界,降低开发成本。

3D 资产生成管道:从概念图到可编辑网格,一站式完成。

相比早期版本,Lyra 2.0 在场景持久性和可扩展性上实现了显著飞跃,为"世界模型"从演示走向实用资产铺平了道路。

行业意义:生成式 AI 的时空建模突破

NVIDIA 这次开源,不仅展示了生成式 AI 在时空建模上的技术突破,更体现了行业向开放生态的持续投入。随着这类工具的普及,开发者将能更高效地构建大规模、可交互的 3D 世界,推动机器人、自动驾驶和元宇宙应用的落地。

短期来看,Lyra 2.0 会降低 3D 场景生成的门槛,让更多开发者能快速构建虚拟环境;长期来看,这种从图片到 3D 世界的技术,可能会成为游戏开发、机器人训练的标准工具之一。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 🚀 Claude Code重磅更新:Agent View重构多任务AI编程交互范式

  • Hermes Agent登顶全球Token消耗榜首:首次超越OpenClaw

  • 马斯克入局AI编程新赛道:SpaceXAI推出Grok Build,重构桌面开发新生态

  • Codex for Chrome正式上线:非侵入式浏览器协作,跨标签页上下文读取与DevTools调用

  • OpenAI推出GPT-5.5-Cyber预览版:放宽安全限制赋能网络防御,与Claude Mythos正面交锋

热点资讯

每日AI资讯-2026年5月09日

5天前
每日AI资讯-2026年5月09日

3000元成本引爆全球!国产AI短片《丧尸清道夫》:从B站出圈到好莱坞寻人

1天前
3000元成本引爆全球!国产AI短片《丧尸清道夫》:从B站出圈到好莱坞寻人

宇树科技发布全球首款量产载人变形机甲GD01:390万元起,"现实版高达"正式落地

1天前
宇树科技发布全球首款量产载人变形机甲GD01:390万元起,"现实版高达"正式落地

AI新势能漫剧正当红-2026AI短剧/漫剧生态发展交流会

8天前
AI新势能漫剧正当红-2026AI短剧/漫剧生态发展交流会

🚀 Claude Code重磅更新:Agent View重构多任务AI编程交互范式

2天前
🚀 Claude Code重磅更新:Agent View重构多任务AI编程交互范式
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有