Voyager
4433
0
0
HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等开源模型
工具标签:
直达网站
工具介绍

腾讯混元世界模型Voyager是什么?
HunyuanWorld-Voyager(混元Voyager)是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等现有开源方案,成为AI生成3D世界的里程碑式成果。
模型定位:
混元Voyager是混元3D世界模型系列的最新扩展,旨在解决传统视频生成模型在空间一致性、探索范围和交互性上的三大局限:
- 空间一致性突破:传统模型生成的场景在相机视角移动时易出现结构断裂或物体错位,而Voyager通过原生3D记忆机制,可保持800米超长场景中的物体形态一致性,较竞品提升41%。
- 长距离探索能力:支持用户通过键盘或摇杆设定任意相机轨迹,模型基于初始场景视图实时生成连贯的RGB-D视频(含RGB图像与深度信息),无需依赖后处理工具即可导出标准3D格式(如点云、Mesh)。
- 交互性升级:直接生成显式3D场景,而非纯视频流,为虚拟现实(VR)、物理仿真等应用提供可交互的立体环境,满足真实场景的交互需求。
核心功能:
混元Voyager的功能设计覆盖3D内容生产的全流程,具体包括:
可控视频生成
- 输入单张图像或文本提示,结合用户指定的相机轨迹,生成视角连贯的RGB-D视频序列。
- 示例:输入“中式庭院”图像与“环绕飞行”轨迹,模型可生成包含完整建筑结构的360度漫游视频。
原生3D重建与导出
- 直接生成包含深度信息的点云数据,支持无损导出为标准3D格式,兼容Blender、Unity等主流CG管线。
- 对比实验显示,Voyager生成的点云重建精度较传统方法提升18%,边缘结构保留更完整。
风格化编辑与控制
- 支持对生成场景进行全局或局部风格调整(如赛博朋克、水墨画风),同时保持主体结构一致性。
- 示例:将同一座桥梁的3D模型分别渲染为“哥特式建筑”与“未来科幻风格”,仅需修改文本提示即可实现。
多模态理解与生成
- 视频场景重建:从普通视频中提取深度信息,生成可编辑的3D场景。
- 3D物体纹理生成:基于图像或文本生成高精度物体纹理,支持游戏资产快速制作。
- 视频深度估计:为现有视频补充深度信息,辅助机器人导航、自动驾驶仿真等任务。
技术架构:
混元Voyager的核心优势源于三大技术突破:
1. 双流神经网络架构
- 控制模块:处理相机轨迹、文本提示等条件输入,通过多尺度特征融合保证场景细节与运动逻辑的一致性。
- 单流模块:负责特征提取与生成,采用Hunyuan-Video DiT模型架构,支持高分辨率视频输出。
- 联合训练:通过跨任务协同学习,在单一模型中实现风格复现与主体保留的SOTA级性能。
2. 深度信息驱动生成
- 在扩散模型中引入深度预测分支,生成RGB图像的同时输出像素级深度图,为3D重建提供几何基础。
- 实验表明,Voyager的深度估计精度较传统方案提升23%,点云重建误差降低18%。
3. 动态特征投影机制
- 世界缓存机制:基于混元3D世界模型1.0生成的初始点云缓存,通过几何投影与特征对齐,将不同视角的场景特征统一到世界坐标系下。
- 闭环优化系统:生成的视频帧实时更新缓存,支持任意相机轨迹下的连续探索,同时维持几何一致性。
- 数据构建引擎:自动化视频重建流水线可对任意输入视频估计相机位姿与度量深度,构建包含超10万段视频片段的大规模训练集。

应用场景:
混元Voyager的技术特性使其成为多领域开发者的首选工具:
1. 虚拟现实与元宇宙开发
- 场景构建:快速生成可交互的3D环境,降低VR内容制作成本。
- 案例:某VR教育平台使用Voyager生成历史场景(如古罗马斗兽场),学生可通过自由视角探索学习,开发效率提升300%。
2. 游戏开发
- 资产制作:从概念图生成可编辑的3D模型与纹理,支持角色换装、场景动态加载等功能。
- 案例:腾讯《代号:星辰》项目组反馈,使用Voyager后角色换装开发周期从2周缩短至3天。
3. 影视制作
- 概念设计:辅助导演快速可视化分镜脚本,支持风格化预览与实时修改。
- 案例:科幻电影《星际探索2》使用Voyager生成800余张未来城市概念图,效率较传统手绘提升20倍。
4. 工业仿真与机器人训练
- 场景重建:从真实视频中生成3D环境,用于自动驾驶算法测试或机器人路径规划。
- 案例:某自动驾驶团队使用Voyager重建城市道路场景,训练数据覆盖效率提升5倍。
开源生态:
混元Voyager延续了腾讯混元的开源战略,构建了完整的技术赋能体系:
1. 全链路资源开放
- 代码与模型:训练脚本、推理引擎及预训练模型权重已在GitHub与Hugging Face开源。
- 数据集:提供三元组数据集采样接口,支持开发者构建自定义训练集。
- 技术文档:arXiv论文详细披露实现细节,涵盖数据构建、模型训练与优化策略。
2. 硬件适配优化
- 消费级显卡支持:通过模型压缩与量化技术,Voyager可在RTX 4070等消费级显卡上运行,显存占用降低40%。
- Lite版本扩展:继7月发布的1.0 Lite版后,Voyager进一步优化推理速度,支持实时3D场景生成。
3. 开发者社区创新
- GitHub开源首周获5000+星标,涌现出3D风格迁移、实时视频处理等创新应用。
- 医疗影像增强:探索将Voyager用于病灶识别辅助,通过3D重建提升诊断准确性。
项目资源
- 官网:https://3d-models.hunyuan.tencent.com/world/
- GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

ACE-Step(音跃)
ACE-Step(音跃)是阶跃星辰与ACE Studio于2025年5月7日联合发布并开源的音乐大模型,它是一款以生成式AI技术为核心的音乐创作工具,参数量为3.5B,支持包括LoRA和ControlNet在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务
DeepSeek Janus-Pro
DeepSeek Janus-Pro是由中国人工智能初创公司DeepSeek于2025年1月28日发布的开源多模态AI模型。该模型主要应用于文本生成图像(文生图)领域,通过先进的算法和丰富的训练数据,实现了高质量的图像生成和多模态理解。
谷歌Gemini
谷歌Gemini是一款由Google开发的多模态人工智能语言模型,它具备卓越的自然语言理解和生成能力,能够处理包括文本、图像、音频、视频和代码在内的多种信息类型。于2023年12月6日正式推出,包含了三种不同规模的模型:Gemini Ultra、Gemini Nano和Gemini Pro
Qwen3-Omni
Qwen3-Omni是阿里云通义千问团队在2025年9月23日正式发布的全球首个原生端到端全模态AI模型,并同步开源模型权重、代码及配套工具链。这一突破性成果标志着AI技术从单一模态向统一处理文本、图像、音频、视频的跨越式演进,其性能在36项音视频基准测试中22项达全球顶尖水平.
Hugging Face
Hugging Face成立于2016年,作为全球大模型领域举足轻重的开放平台,最初以开发聊天机器人起步,怀揣着让人工智能技术惠及大众的愿景,逐渐转型为专注于开源人工智能,尤其是自然语言处理(NLP)技术,发展至今,它已构建起涵盖模型、工具、数据集以及活跃社区的庞大生态体系。
无问芯穹
无问芯穹(Infinigence),一个专为大型模型应用开发者量身打造的企业级AI服务平台,正引领着我们步入AIGC(人工智能生成内容)的新纪元。它致力于在AI 2.0时代提供创新解决方案,搭建起大模型与多样化芯片之间的高效部署桥梁,为通用人工智能(AGI)时代的基础设施建设贡献力量。
GeometryCrafter
GeometryCrafter是腾讯研发团队发布的一款专为开放世界视频设计的全新AI模型。该模型的核心在于其能够从复杂多变的开放世界视频中,提取并生成一致的几何信息。所谓“开放世界视频”,涵盖了内容多样、场景切换频繁、视角变化丰富的各类视频素材,如街头实拍、旅行记录、自然风光纪录片等。
liblibAI
Liblib社区,也被称为哩布哩布AI,是一个专注于AI绘画的原创模型分享社区。它由北京奇点星宇科技有限公司提供,致力于激发原创AI模型和素材的创作。在这个平台上,用户可以找到最新、最热门的模型素材,并且可以免费下载超过10万个原创模型。
0
0






