智元机器人发布机器人世界模型开源平台Genie Envisioner：实现“看-想-动”全流程闭环-AITOP100,AI资讯

近日，智元机器人在上海正式推出Genie Envisioner（GE）——一款面向真实世界机器人操控的统一世界模型开源平台。这一突破性技术打破了传统机器人学习系统的分阶段开发模式，将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，让机器人首次实现从“观察环境”到“自主决策”再到“精准执行”的端到端智能操控。

Genie Envisioner

核心突破：视觉中心建模，跨平台泛化“零门槛”

传统机器人学习依赖视觉-语言-行动（VLA）多模态融合，但存在信息损耗和跨平台迁移难的问题。GE则另辟蹊径，直接在视觉空间中建模机器人与环境的交互动态，完整保留空间结构与时序演化信息。这一视觉中心建模范式赋予了GE两大核心优势：

跨本体泛化能力极强：仅需极少量数据即可实现跨机器人平台迁移，例如从机械臂到人形机器人；
长时序任务执行精准：在折叠纸盒、组装零件等超长步骤任务中，GE-Act动作模块的成功率远超现有顶尖方法，彻底解决“卡步骤”难题。

三大组件协同，打造“想象-验证-行动”闭环

GE平台由GE-Base、GE-Act、GE-Sim三大模块紧密集成：

GE-Base（基础生成）：采用自回归视频生成框架，支持多视角输入与稀疏记忆机制，通过随机采样历史帧增强长时序推理能力，像“人脑回放记忆”一样理解复杂场景；
GE-Act（动作执行）：轻量级架构将视觉特征直接转换为控制指令，异步推理模式实现毫秒级实时响应，即使面对动态环境也能稳定操作；
GE-Sim（仿真评估）：基于动作条件的神经仿真器，通过层次化预测生成多样化训练数据，支持闭环策略优化，让机器人在虚拟世界中“预演”千万次后再落地执行。

开源生态+评测工具，推动行业“从被动到主动”

为验证GE的性能，智元团队开发了EWMBench评测套件，涵盖真实场景下的多维度任务。测试结果显示，GE-Base在关键指标上全面领先现有模型，且评估结果与人类判断高度一致。

更值得关注的是，智元宣布将开源GE的全部代码、预训练模型及评测工具，降低技术门槛，加速机器人从“被动执行指令”向主动“想象-验证-行动”的智能体进化。未来，GE还将扩展多传感器融合、全身移动控制等功能，深度赋能智能制造、物流仓储、服务机器人等领域。

从“机械执行”到“自主思考”，机器人智能的进化正迎来关键转折点。Genie Envisioner的开源，不仅为开发者提供了“即插即用”的智能框架，更可能重塑整个机器人行业的技术路线——当“想象”成为机器人的本能，我们离“通用人工智能”或许又近了一步。