Voyager
3232
0
0
HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等开源模型
工具标签:
直达网站
工具介绍

腾讯混元世界模型Voyager是什么?
HunyuanWorld-Voyager(混元Voyager)是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等现有开源方案,成为AI生成3D世界的里程碑式成果。
模型定位:
混元Voyager是混元3D世界模型系列的最新扩展,旨在解决传统视频生成模型在空间一致性、探索范围和交互性上的三大局限:
- 空间一致性突破:传统模型生成的场景在相机视角移动时易出现结构断裂或物体错位,而Voyager通过原生3D记忆机制,可保持800米超长场景中的物体形态一致性,较竞品提升41%。
- 长距离探索能力:支持用户通过键盘或摇杆设定任意相机轨迹,模型基于初始场景视图实时生成连贯的RGB-D视频(含RGB图像与深度信息),无需依赖后处理工具即可导出标准3D格式(如点云、Mesh)。
- 交互性升级:直接生成显式3D场景,而非纯视频流,为虚拟现实(VR)、物理仿真等应用提供可交互的立体环境,满足真实场景的交互需求。
核心功能:
混元Voyager的功能设计覆盖3D内容生产的全流程,具体包括:
可控视频生成
- 输入单张图像或文本提示,结合用户指定的相机轨迹,生成视角连贯的RGB-D视频序列。
- 示例:输入“中式庭院”图像与“环绕飞行”轨迹,模型可生成包含完整建筑结构的360度漫游视频。
原生3D重建与导出
- 直接生成包含深度信息的点云数据,支持无损导出为标准3D格式,兼容Blender、Unity等主流CG管线。
- 对比实验显示,Voyager生成的点云重建精度较传统方法提升18%,边缘结构保留更完整。
风格化编辑与控制
- 支持对生成场景进行全局或局部风格调整(如赛博朋克、水墨画风),同时保持主体结构一致性。
- 示例:将同一座桥梁的3D模型分别渲染为“哥特式建筑”与“未来科幻风格”,仅需修改文本提示即可实现。
多模态理解与生成
- 视频场景重建:从普通视频中提取深度信息,生成可编辑的3D场景。
- 3D物体纹理生成:基于图像或文本生成高精度物体纹理,支持游戏资产快速制作。
- 视频深度估计:为现有视频补充深度信息,辅助机器人导航、自动驾驶仿真等任务。
技术架构:
混元Voyager的核心优势源于三大技术突破:
1. 双流神经网络架构
- 控制模块:处理相机轨迹、文本提示等条件输入,通过多尺度特征融合保证场景细节与运动逻辑的一致性。
- 单流模块:负责特征提取与生成,采用Hunyuan-Video DiT模型架构,支持高分辨率视频输出。
- 联合训练:通过跨任务协同学习,在单一模型中实现风格复现与主体保留的SOTA级性能。
2. 深度信息驱动生成
- 在扩散模型中引入深度预测分支,生成RGB图像的同时输出像素级深度图,为3D重建提供几何基础。
- 实验表明,Voyager的深度估计精度较传统方案提升23%,点云重建误差降低18%。
3. 动态特征投影机制
- 世界缓存机制:基于混元3D世界模型1.0生成的初始点云缓存,通过几何投影与特征对齐,将不同视角的场景特征统一到世界坐标系下。
- 闭环优化系统:生成的视频帧实时更新缓存,支持任意相机轨迹下的连续探索,同时维持几何一致性。
- 数据构建引擎:自动化视频重建流水线可对任意输入视频估计相机位姿与度量深度,构建包含超10万段视频片段的大规模训练集。

应用场景:
混元Voyager的技术特性使其成为多领域开发者的首选工具:
1. 虚拟现实与元宇宙开发
- 场景构建:快速生成可交互的3D环境,降低VR内容制作成本。
- 案例:某VR教育平台使用Voyager生成历史场景(如古罗马斗兽场),学生可通过自由视角探索学习,开发效率提升300%。
2. 游戏开发
- 资产制作:从概念图生成可编辑的3D模型与纹理,支持角色换装、场景动态加载等功能。
- 案例:腾讯《代号:星辰》项目组反馈,使用Voyager后角色换装开发周期从2周缩短至3天。
3. 影视制作
- 概念设计:辅助导演快速可视化分镜脚本,支持风格化预览与实时修改。
- 案例:科幻电影《星际探索2》使用Voyager生成800余张未来城市概念图,效率较传统手绘提升20倍。
4. 工业仿真与机器人训练
- 场景重建:从真实视频中生成3D环境,用于自动驾驶算法测试或机器人路径规划。
- 案例:某自动驾驶团队使用Voyager重建城市道路场景,训练数据覆盖效率提升5倍。
开源生态:
混元Voyager延续了腾讯混元的开源战略,构建了完整的技术赋能体系:
1. 全链路资源开放
- 代码与模型:训练脚本、推理引擎及预训练模型权重已在GitHub与Hugging Face开源。
- 数据集:提供三元组数据集采样接口,支持开发者构建自定义训练集。
- 技术文档:arXiv论文详细披露实现细节,涵盖数据构建、模型训练与优化策略。
2. 硬件适配优化
- 消费级显卡支持:通过模型压缩与量化技术,Voyager可在RTX 4070等消费级显卡上运行,显存占用降低40%。
- Lite版本扩展:继7月发布的1.0 Lite版后,Voyager进一步优化推理速度,支持实时3D场景生成。
3. 开发者社区创新
- GitHub开源首周获5000+星标,涌现出3D风格迁移、实时视频处理等创新应用。
- 医疗影像增强:探索将Voyager用于病灶识别辅助,通过3D重建提升诊断准确性。
项目资源
- 官网:https://3d-models.hunyuan.tencent.com/world/
- GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Signature AI
Signature AI,一家领先的私有AI人工智能服务提供商,致力于帮助企业构建专注于安全、保障和知识产权增长的私有AI模型,同时确保卓越的输出质量。以下是对Signature AI的详细介绍。
豆蔻妇科大模型
豆蔻妇科大模型由壹生检康(杭州)生命科技有限公司研发,基于Qwen底座模型,通过针对性合成症状数据、蒸馏训练及医学专家标注思维链,依托高质量数据完成微调和强化训练。2025年7月,该模型以64.94分的成绩通过国家妇产科卫生高级职称(正高)笔试考试,成为首成为国内首个达到主任级医师水平的垂直医疗模型
Stability AI
Stability AI是一家知名的人工智能公司。该公司在 AIGC 领域具有一定影响力,其推出的文本到图像生成模型 Stable Diffusion 广为人知。Stable Diffusion 的特点是全面开源,用户配置一张家用中高端显卡,就能在本地训练和部署 AI 模型。
Ming-Omni
Ming-Omni是由Inclusion AI与蚂蚁集团联合推出的开源多模态模型,其核心亮点在于统一处理图像、文本、音频和视频,并支持语音与图像生成,成为首个在模态支持能力上与GPT-4o媲美的开源模型。
朱雀大模型检测
验室上线的这款AI生成图片与文章鉴别工具-朱雀大模型检测,是一款基于深度学习和自然语言处理技术的智能检测平台。它通过对上传的图片和文章进行深度分析,捕捉真实与AI生成内容之间的差异,从而实现对AI生成内容的准确鉴别
ZeroGPT Plus
ZeroGPT Plus是一款多功能AI内容检测平台,专注于识别由ChatGPT、GPT-4、Claude、Gemini等大型语言模型生成的文本。平台采用 DeepAnalyse™技术,提供高精度的AI内容检测,支持多语言分析。除了AI检测外,ZeroGPT Plus还集成了抄袭检测、文本改写等功能
Voyager
HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等开源模型
Shisa.AI
Shisa.AI是一家总部位于日本东京的AI实验室,专注于为日本市场开发开源的AI语言和语音模型。公司致力于通过优化后训练流程和合成数据驱动的方法,提升AI模型在日语环境下的性能,推动日语AI应用的发展。Shisa V2405B模型,这一开源模型被誉为“日本有史以来训练的最强大型语言模型“。
0
0






