近日,智元机器人在上海正式推出Genie Envisioner(GE)——一款面向真实世界机器人操控的统一世界模型开源平台。这一突破性技术打破了传统机器人学习系统的分阶段开发模式,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,让机器人首次实现从“观察环境”到“自主决策”再到“精准执行”的端到端智能操控。
核心突破:视觉中心建模,跨平台泛化“零门槛”
传统机器人学习依赖视觉-语言-行动(VLA)多模态融合,但存在信息损耗和跨平台迁移难的问题。GE则另辟蹊径,直接在视觉空间中建模机器人与环境的交互动态,完整保留空间结构与时序演化信息。这一视觉中心建模范式赋予了GE两大核心优势:
- 跨本体泛化能力极强:仅需极少量数据即可实现跨机器人平台迁移,例如从机械臂到人形机器人;
- 长时序任务执行精准:在折叠纸盒、组装零件等超长步骤任务中,GE-Act动作模块的成功率远超现有顶尖方法,彻底解决“卡步骤”难题。
三大组件协同,打造“想象-验证-行动”闭环
GE平台由GE-Base、GE-Act、GE-Sim三大模块紧密集成:
- GE-Base(基础生成):采用自回归视频生成框架,支持多视角输入与稀疏记忆机制,通过随机采样历史帧增强长时序推理能力,像“人脑回放记忆”一样理解复杂场景;
- GE-Act(动作执行):轻量级架构将视觉特征直接转换为控制指令,异步推理模式实现毫秒级实时响应,即使面对动态环境也能稳定操作;
- GE-Sim(仿真评估):基于动作条件的神经仿真器,通过层次化预测生成多样化训练数据,支持闭环策略优化,让机器人在虚拟世界中“预演”千万次后再落地执行。
开源生态+评测工具,推动行业“从被动到主动”
为验证GE的性能,智元团队开发了EWMBench评测套件,涵盖真实场景下的多维度任务。测试结果显示,GE-Base在关键指标上全面领先现有模型,且评估结果与人类判断高度一致。
更值得关注的是,智元宣布将开源GE的全部代码、预训练模型及评测工具,降低技术门槛,加速机器人从“被动执行指令”向主动“想象-验证-行动”的智能体进化。未来,GE还将扩展多传感器融合、全身移动控制等功能,深度赋能智能制造、物流仓储、服务机器人等领域。
从“机械执行”到“自主思考”,机器人智能的进化正迎来关键转折点。Genie Envisioner的开源,不仅为开发者提供了“即插即用”的智能框架,更可能重塑整个机器人行业的技术路线——当“想象”成为机器人的本能,我们离“通用人工智能”或许又近了一步。