Voyager
5261
0
0
HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等开源模型
工具标签:
直达网站
工具介绍

腾讯混元世界模型Voyager是什么?
HunyuanWorld-Voyager(混元Voyager)是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等现有开源方案,成为AI生成3D世界的里程碑式成果。
模型定位:
混元Voyager是混元3D世界模型系列的最新扩展,旨在解决传统视频生成模型在空间一致性、探索范围和交互性上的三大局限:
- 空间一致性突破:传统模型生成的场景在相机视角移动时易出现结构断裂或物体错位,而Voyager通过原生3D记忆机制,可保持800米超长场景中的物体形态一致性,较竞品提升41%。
- 长距离探索能力:支持用户通过键盘或摇杆设定任意相机轨迹,模型基于初始场景视图实时生成连贯的RGB-D视频(含RGB图像与深度信息),无需依赖后处理工具即可导出标准3D格式(如点云、Mesh)。
- 交互性升级:直接生成显式3D场景,而非纯视频流,为虚拟现实(VR)、物理仿真等应用提供可交互的立体环境,满足真实场景的交互需求。
核心功能:
混元Voyager的功能设计覆盖3D内容生产的全流程,具体包括:
可控视频生成
- 输入单张图像或文本提示,结合用户指定的相机轨迹,生成视角连贯的RGB-D视频序列。
- 示例:输入“中式庭院”图像与“环绕飞行”轨迹,模型可生成包含完整建筑结构的360度漫游视频。
原生3D重建与导出
- 直接生成包含深度信息的点云数据,支持无损导出为标准3D格式,兼容Blender、Unity等主流CG管线。
- 对比实验显示,Voyager生成的点云重建精度较传统方法提升18%,边缘结构保留更完整。
风格化编辑与控制
- 支持对生成场景进行全局或局部风格调整(如赛博朋克、水墨画风),同时保持主体结构一致性。
- 示例:将同一座桥梁的3D模型分别渲染为“哥特式建筑”与“未来科幻风格”,仅需修改文本提示即可实现。
多模态理解与生成
- 视频场景重建:从普通视频中提取深度信息,生成可编辑的3D场景。
- 3D物体纹理生成:基于图像或文本生成高精度物体纹理,支持游戏资产快速制作。
- 视频深度估计:为现有视频补充深度信息,辅助机器人导航、自动驾驶仿真等任务。
技术架构:
混元Voyager的核心优势源于三大技术突破:
1. 双流神经网络架构
- 控制模块:处理相机轨迹、文本提示等条件输入,通过多尺度特征融合保证场景细节与运动逻辑的一致性。
- 单流模块:负责特征提取与生成,采用Hunyuan-Video DiT模型架构,支持高分辨率视频输出。
- 联合训练:通过跨任务协同学习,在单一模型中实现风格复现与主体保留的SOTA级性能。
2. 深度信息驱动生成
- 在扩散模型中引入深度预测分支,生成RGB图像的同时输出像素级深度图,为3D重建提供几何基础。
- 实验表明,Voyager的深度估计精度较传统方案提升23%,点云重建误差降低18%。
3. 动态特征投影机制
- 世界缓存机制:基于混元3D世界模型1.0生成的初始点云缓存,通过几何投影与特征对齐,将不同视角的场景特征统一到世界坐标系下。
- 闭环优化系统:生成的视频帧实时更新缓存,支持任意相机轨迹下的连续探索,同时维持几何一致性。
- 数据构建引擎:自动化视频重建流水线可对任意输入视频估计相机位姿与度量深度,构建包含超10万段视频片段的大规模训练集。

应用场景:
混元Voyager的技术特性使其成为多领域开发者的首选工具:
1. 虚拟现实与元宇宙开发
- 场景构建:快速生成可交互的3D环境,降低VR内容制作成本。
- 案例:某VR教育平台使用Voyager生成历史场景(如古罗马斗兽场),学生可通过自由视角探索学习,开发效率提升300%。
2. 游戏开发
- 资产制作:从概念图生成可编辑的3D模型与纹理,支持角色换装、场景动态加载等功能。
- 案例:腾讯《代号:星辰》项目组反馈,使用Voyager后角色换装开发周期从2周缩短至3天。
3. 影视制作
- 概念设计:辅助导演快速可视化分镜脚本,支持风格化预览与实时修改。
- 案例:科幻电影《星际探索2》使用Voyager生成800余张未来城市概念图,效率较传统手绘提升20倍。
4. 工业仿真与机器人训练
- 场景重建:从真实视频中生成3D环境,用于自动驾驶算法测试或机器人路径规划。
- 案例:某自动驾驶团队使用Voyager重建城市道路场景,训练数据覆盖效率提升5倍。
开源生态:
混元Voyager延续了腾讯混元的开源战略,构建了完整的技术赋能体系:
1. 全链路资源开放
- 代码与模型:训练脚本、推理引擎及预训练模型权重已在GitHub与Hugging Face开源。
- 数据集:提供三元组数据集采样接口,支持开发者构建自定义训练集。
- 技术文档:arXiv论文详细披露实现细节,涵盖数据构建、模型训练与优化策略。
2. 硬件适配优化
- 消费级显卡支持:通过模型压缩与量化技术,Voyager可在RTX 4070等消费级显卡上运行,显存占用降低40%。
- Lite版本扩展:继7月发布的1.0 Lite版后,Voyager进一步优化推理速度,支持实时3D场景生成。
3. 开发者社区创新
- GitHub开源首周获5000+星标,涌现出3D风格迁移、实时视频处理等创新应用。
- 医疗影像增强:探索将Voyager用于病灶识别辅助,通过3D重建提升诊断准确性。
项目资源
- 官网:https://3d-models.hunyuan.tencent.com/world/
- GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

ChatDLM
ChatDLM是Qafind Labs于2025年推出的新一代对话生成大模型,通过融合"区块扩散(Block Diffusion)"与"专家混合(MoE)"技术,该模型在保持7B参数量级的同时,实现了A100 GPU上2800 tokens/s的推理速度,较GPT-4等通用模型提升3-5倍。
Llama
Meta Llama模型是Meta研发的大型语言模型系列,它基于先进的深度学习架构,旨在处理和理解自然语言。Llama模型以其强大的语言处理能力和广泛的应用场景,成为了AI领域的一款全能选手。无论是文本生成、语言理解,还是多模态交互,Llama模型都能展现出其卓越的性能。
天工AI大模型
昆仑万维天工AI大模型是昆仑万维集团自主研发的一系列大型语言模型(LLMs),旨在通过先进的自然语言处理和深度学习技术,为用户提供高效、智能的服务和体验。该系列模型不仅具备强大的语言理解和生成能力,还广泛应用于教育、企业客服、新闻媒体、创意产业、医疗、法律咨询、金融服务等多个行业。
Marble
Marble是由斯坦福大学教授、"AI教母"李飞飞创立的World Labs推出的全球首款商用多模态世界模型。作为生成式AI领域的革命性产品,Marble突破了传统3D建模的技术边界,通过文本、图像、视频甚至3D草图等多种输入方式,可实时生成具备物理规则的持久性3D环境。
MMaDA
MMaDA是由普林斯顿大学、字节跳动、清华大学及北京大学联合研发的多模态扩散大语言模型,旨在突破传统多模态模型在架构统一性与后训练方法上的局限性。其核心目标是通过统一的扩散架构,实现文本推理、多模态理解与图像生成的跨领域卓越性能。
Nova Sonic
Nova Sonic是亚马逊近期推出的一款新一代AI语音模型,旨在进一步提升其语音助手Alexa+的性能。这款模型通过整合语音理解和生成的能力,为用户带来更加自然流畅的对话体验。Nova Sonic的推出,标志着亚马逊在语音识别技术领域再次取得了重大突破。
Magi-1
Magi-1是一款由Sand.ai团队研发的自回归视频生成模型。它采用了先进的深度学习技术,通过预测视频块序列(这些视频块是连续帧的固定长度片段)来生成高质量的视频内容。Magi-1不仅支持因果时间建模,还能实现自然的流式生成,为用户提供了极大的创作自由和灵活性。
Lipsync-2
Lipsync-2是由Sync Labs公司推出的全球首个零-shot嘴型同步模型。在Ai视频技术发展的当下,嘴型同步技术对于提升视频的真实感和表现力至关重要。传统的嘴型同步技术往往需要大量的训练数据和针对特定演讲者的预训练,过程繁琐且效率低下而Lipsync-2的出现,打破了这一传统模式的束。
0
0






