Voyager
5422
0
0
HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等开源模型
工具标签:
直达网站
工具介绍

腾讯混元世界模型Voyager是什么?
HunyuanWorld-Voyager(混元Voyager)是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等现有开源方案,成为AI生成3D世界的里程碑式成果。
模型定位:
混元Voyager是混元3D世界模型系列的最新扩展,旨在解决传统视频生成模型在空间一致性、探索范围和交互性上的三大局限:
- 空间一致性突破:传统模型生成的场景在相机视角移动时易出现结构断裂或物体错位,而Voyager通过原生3D记忆机制,可保持800米超长场景中的物体形态一致性,较竞品提升41%。
- 长距离探索能力:支持用户通过键盘或摇杆设定任意相机轨迹,模型基于初始场景视图实时生成连贯的RGB-D视频(含RGB图像与深度信息),无需依赖后处理工具即可导出标准3D格式(如点云、Mesh)。
- 交互性升级:直接生成显式3D场景,而非纯视频流,为虚拟现实(VR)、物理仿真等应用提供可交互的立体环境,满足真实场景的交互需求。
核心功能:
混元Voyager的功能设计覆盖3D内容生产的全流程,具体包括:
可控视频生成
- 输入单张图像或文本提示,结合用户指定的相机轨迹,生成视角连贯的RGB-D视频序列。
- 示例:输入“中式庭院”图像与“环绕飞行”轨迹,模型可生成包含完整建筑结构的360度漫游视频。
原生3D重建与导出
- 直接生成包含深度信息的点云数据,支持无损导出为标准3D格式,兼容Blender、Unity等主流CG管线。
- 对比实验显示,Voyager生成的点云重建精度较传统方法提升18%,边缘结构保留更完整。
风格化编辑与控制
- 支持对生成场景进行全局或局部风格调整(如赛博朋克、水墨画风),同时保持主体结构一致性。
- 示例:将同一座桥梁的3D模型分别渲染为“哥特式建筑”与“未来科幻风格”,仅需修改文本提示即可实现。
多模态理解与生成
- 视频场景重建:从普通视频中提取深度信息,生成可编辑的3D场景。
- 3D物体纹理生成:基于图像或文本生成高精度物体纹理,支持游戏资产快速制作。
- 视频深度估计:为现有视频补充深度信息,辅助机器人导航、自动驾驶仿真等任务。
技术架构:
混元Voyager的核心优势源于三大技术突破:
1. 双流神经网络架构
- 控制模块:处理相机轨迹、文本提示等条件输入,通过多尺度特征融合保证场景细节与运动逻辑的一致性。
- 单流模块:负责特征提取与生成,采用Hunyuan-Video DiT模型架构,支持高分辨率视频输出。
- 联合训练:通过跨任务协同学习,在单一模型中实现风格复现与主体保留的SOTA级性能。
2. 深度信息驱动生成
- 在扩散模型中引入深度预测分支,生成RGB图像的同时输出像素级深度图,为3D重建提供几何基础。
- 实验表明,Voyager的深度估计精度较传统方案提升23%,点云重建误差降低18%。
3. 动态特征投影机制
- 世界缓存机制:基于混元3D世界模型1.0生成的初始点云缓存,通过几何投影与特征对齐,将不同视角的场景特征统一到世界坐标系下。
- 闭环优化系统:生成的视频帧实时更新缓存,支持任意相机轨迹下的连续探索,同时维持几何一致性。
- 数据构建引擎:自动化视频重建流水线可对任意输入视频估计相机位姿与度量深度,构建包含超10万段视频片段的大规模训练集。

应用场景:
混元Voyager的技术特性使其成为多领域开发者的首选工具:
1. 虚拟现实与元宇宙开发
- 场景构建:快速生成可交互的3D环境,降低VR内容制作成本。
- 案例:某VR教育平台使用Voyager生成历史场景(如古罗马斗兽场),学生可通过自由视角探索学习,开发效率提升300%。
2. 游戏开发
- 资产制作:从概念图生成可编辑的3D模型与纹理,支持角色换装、场景动态加载等功能。
- 案例:腾讯《代号:星辰》项目组反馈,使用Voyager后角色换装开发周期从2周缩短至3天。
3. 影视制作
- 概念设计:辅助导演快速可视化分镜脚本,支持风格化预览与实时修改。
- 案例:科幻电影《星际探索2》使用Voyager生成800余张未来城市概念图,效率较传统手绘提升20倍。
4. 工业仿真与机器人训练
- 场景重建:从真实视频中生成3D环境,用于自动驾驶算法测试或机器人路径规划。
- 案例:某自动驾驶团队使用Voyager重建城市道路场景,训练数据覆盖效率提升5倍。
开源生态:
混元Voyager延续了腾讯混元的开源战略,构建了完整的技术赋能体系:
1. 全链路资源开放
- 代码与模型:训练脚本、推理引擎及预训练模型权重已在GitHub与Hugging Face开源。
- 数据集:提供三元组数据集采样接口,支持开发者构建自定义训练集。
- 技术文档:arXiv论文详细披露实现细节,涵盖数据构建、模型训练与优化策略。
2. 硬件适配优化
- 消费级显卡支持:通过模型压缩与量化技术,Voyager可在RTX 4070等消费级显卡上运行,显存占用降低40%。
- Lite版本扩展:继7月发布的1.0 Lite版后,Voyager进一步优化推理速度,支持实时3D场景生成。
3. 开发者社区创新
- GitHub开源首周获5000+星标,涌现出3D风格迁移、实时视频处理等创新应用。
- 医疗影像增强:探索将Voyager用于病灶识别辅助,通过3D重建提升诊断准确性。
项目资源
- 官网:https://3d-models.hunyuan.tencent.com/world/
- GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Hugging Face
Hugging Face成立于2016年,作为全球大模型领域举足轻重的开放平台,最初以开发聊天机器人起步,怀揣着让人工智能技术惠及大众的愿景,逐渐转型为专注于开源人工智能,尤其是自然语言处理(NLP)技术,发展至今,它已构建起涵盖模型、工具、数据集以及活跃社区的庞大生态体系。
DeepCoder-14B-Preview
DeepCoder-14B-Preview是一款专为编码推理设计的生成式AI模型。它是在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调而成。该模型不仅性能卓越,而且开源内容丰富,为开发者提供了深入理解和研究模型开发流程的机会。
紫东太初大模型
紫东太初大模型是由中国科学院自动化研究所与武汉人工智能研究院联合研发,是全球领先的跨模态通用人工智能平台,也是一个千亿参数级别的多模态大模型,它能够实现文本、图像、音频、视频、传感信号和3D点云等多种数据模态的统一表示和互相生成。
Baichuan-NPC
Baichuan-NPC 是百川智能最新推出百川角色大模型,它通过深度优化角色知识库和对话引擎,赋予了游戏角色更加生动和真实的对话与行为表现。Baichuan-NPC 不仅能够理解复杂的上下文信息,还能根据角色性格进行自然而富有个性的互动,让游戏世界中的角色仿佛有了生命。
Sonic-3
Sonic-3是美国生成式AI公司Cartesia推出的第三代实时文本转语音(Real-time TTS)模型。它基于自研的State-Space序列架构,在保持极低保真延迟最低90ms的同时,首次在公开API中实现了情绪标签驱动的笑声、呼吸、停顿与多情感强度控制,被业内称为会笑会喊的大语言模型。
Shisa.AI
Shisa.AI是一家总部位于日本东京的AI实验室,专注于为日本市场开发开源的AI语言和语音模型。公司致力于通过优化后训练流程和合成数据驱动的方法,提升AI模型在日语环境下的性能,推动日语AI应用的发展。Shisa V2405B模型,这一开源模型被誉为“日本有史以来训练的最强大型语言模型“。
SmolLM3
SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数,却性能卓越,超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。该模型具备128k上下文窗口,可处理英语、法语等6种语言文本,还支持深度思考和非思考双推理模式
魔多
魔多AI社区是厚德云旗下一个专为AI创作者打造的趣玩社区,集算力GPU云服务器、模型与镜像分享、在线工作流、在线模型训练、算力激励等为一体的AI创作生态社区
0
0






