Voyager

7634
0
0

HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破，在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首，超越谷歌Genie3等开源模型

工具标签：

# AI大模型

直达网站

工具介绍

腾讯混元世界模型Voyager是什么？

HunyuanWorld-Voyager（混元Voyager）是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破，在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首，超越谷歌Genie3等现有开源方案，成为AI生成3D世界的里程碑式成果。

模型定位：

混元Voyager是混元3D世界模型系列的最新扩展，旨在解决传统视频生成模型在空间一致性、探索范围和交互性上的三大局限：

空间一致性突破：传统模型生成的场景在相机视角移动时易出现结构断裂或物体错位，而Voyager通过原生3D记忆机制，可保持800米超长场景中的物体形态一致性，较竞品提升41%。
长距离探索能力：支持用户通过键盘或摇杆设定任意相机轨迹，模型基于初始场景视图实时生成连贯的RGB-D视频（含RGB图像与深度信息），无需依赖后处理工具即可导出标准3D格式（如点云、Mesh）。
交互性升级：直接生成显式3D场景，而非纯视频流，为虚拟现实（VR）、物理仿真等应用提供可交互的立体环境，满足真实场景的交互需求。

核心功能：

混元Voyager的功能设计覆盖3D内容生产的全流程，具体包括：

可控视频生成

输入单张图像或文本提示，结合用户指定的相机轨迹，生成视角连贯的RGB-D视频序列。
示例：输入“中式庭院”图像与“环绕飞行”轨迹，模型可生成包含完整建筑结构的360度漫游视频。

原生3D重建与导出

直接生成包含深度信息的点云数据，支持无损导出为标准3D格式，兼容Blender、Unity等主流CG管线。
对比实验显示，Voyager生成的点云重建精度较传统方法提升18%，边缘结构保留更完整。

风格化编辑与控制

支持对生成场景进行全局或局部风格调整（如赛博朋克、水墨画风），同时保持主体结构一致性。
示例：将同一座桥梁的3D模型分别渲染为“哥特式建筑”与“未来科幻风格”，仅需修改文本提示即可实现。

多模态理解与生成

视频场景重建：从普通视频中提取深度信息，生成可编辑的3D场景。
3D物体纹理生成：基于图像或文本生成高精度物体纹理，支持游戏资产快速制作。
视频深度估计：为现有视频补充深度信息，辅助机器人导航、自动驾驶仿真等任务。

技术架构：

混元Voyager的核心优势源于三大技术突破：

1. 双流神经网络架构

控制模块：处理相机轨迹、文本提示等条件输入，通过多尺度特征融合保证场景细节与运动逻辑的一致性。
单流模块：负责特征提取与生成，采用Hunyuan-Video DiT模型架构，支持高分辨率视频输出。
联合训练：通过跨任务协同学习，在单一模型中实现风格复现与主体保留的SOTA级性能。

2. 深度信息驱动生成

在扩散模型中引入深度预测分支，生成RGB图像的同时输出像素级深度图，为3D重建提供几何基础。
实验表明，Voyager的深度估计精度较传统方案提升23%，点云重建误差降低18%。

3. 动态特征投影机制

世界缓存机制：基于混元3D世界模型1.0生成的初始点云缓存，通过几何投影与特征对齐，将不同视角的场景特征统一到世界坐标系下。
闭环优化系统：生成的视频帧实时更新缓存，支持任意相机轨迹下的连续探索，同时维持几何一致性。
数据构建引擎：自动化视频重建流水线可对任意输入视频估计相机位姿与度量深度，构建包含超10万段视频片段的大规模训练集。

应用场景：

混元Voyager的技术特性使其成为多领域开发者的首选工具：

1. 虚拟现实与元宇宙开发

场景构建：快速生成可交互的3D环境，降低VR内容制作成本。
案例：某VR教育平台使用Voyager生成历史场景（如古罗马斗兽场），学生可通过自由视角探索学习，开发效率提升300%。

2. 游戏开发

资产制作：从概念图生成可编辑的3D模型与纹理，支持角色换装、场景动态加载等功能。
案例：腾讯《代号：星辰》项目组反馈，使用Voyager后角色换装开发周期从2周缩短至3天。

3. 影视制作

概念设计：辅助导演快速可视化分镜脚本，支持风格化预览与实时修改。
案例：科幻电影《星际探索2》使用Voyager生成800余张未来城市概念图，效率较传统手绘提升20倍。

4. 工业仿真与机器人训练

场景重建：从真实视频中生成3D环境，用于自动驾驶算法测试或机器人路径规划。
案例：某自动驾驶团队使用Voyager重建城市道路场景，训练数据覆盖效率提升5倍。

开源生态：

混元Voyager延续了腾讯混元的开源战略，构建了完整的技术赋能体系：

1. 全链路资源开放

代码与模型：训练脚本、推理引擎及预训练模型权重已在GitHub与Hugging Face开源。
数据集：提供三元组数据集采样接口，支持开发者构建自定义训练集。
技术文档：arXiv论文详细披露实现细节，涵盖数据构建、模型训练与优化策略。

2. 硬件适配优化

消费级显卡支持：通过模型压缩与量化技术，Voyager可在RTX 4070等消费级显卡上运行，显存占用降低40%。
Lite版本扩展：继7月发布的1.0 Lite版后，Voyager进一步优化推理速度，支持实时3D场景生成。

3. 开发者社区创新

GitHub开源首周获5000+星标，涌现出3D风格迁移、实时视频处理等创新应用。
医疗影像增强：探索将Voyager用于病灶识别辅助，通过3D重建提升诊断准确性。

项目资源

官网：https://3d-models.hunyuan.tencent.com/world/
GitHub：https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
技术报告：https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

全部评论

暂无评论

Voyager

工具介绍

腾讯混元世界模型Voyager是什么？

模型定位：

核心功能：