• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

Figure发布通用机器人控制模型Helix,人形机器人迎来新突破

Figure发布通用机器人控制模型Helix,人形机器人迎来新突破
AI TOP100
2025-02-21 09:42:55

Figure发布通用机器人控制模型Helix

与OpenAI结束合作后,Figure发布了其首个重要成果:

Helix,这是一个端到端的通用控制模型,旨在赋予机器人类似人类的感知、理解和行动能力。

通过简单的自然语言指令,机器人便能拿起各种物品,即使是此前从未见过的,例如一个生机勃勃的小仙人掌。

Helix机器人拿起仙人掌

官方演示显示,在接收到人类的指令后,机器人能够按照指示依次拿起桌上的物品并放入冰箱。

Helix机器人执行指令

这展现了一种“机器人默默执行指令”的既定印象。

Helix机器人冰箱交互

更有趣的是,两个机器人甚至可以协同工作,并且它们共享同一组神经网络。

Helix机器人协同工作

加速2倍

接下来,我们深入了解Helix的运作原理。

Helix:像人类一样思考的AI

根据技术报告,这个通用的“视觉-语言-动作”(VLA)模型实现了一系列创新:

完整的上半身控制:Helix是首个能够以高频率(200Hz)连续控制整个上半身的VLA,包括手腕、躯干、头部和手指。

多机器人协作:这是第一个同时在两个机器人上运行的VLA,使它们能够利用从未见过的物品解决共享的远程任务。

拿起任何东西:只需遵循自然语言的指示,机器人就能拿起几乎任何小型家居物品,包括数千种它们之前从未见过的物品。

单一神经网络:与以往的方法不同,Helix使用一组神经网络权重来学习所有行为(拾取和放置物品、使用抽屉和冰箱以及跨机器人交互),无需针对特定任务进行微调。

快速商业化部署:它是首个完全在嵌入式低功耗GPU上运行的VLA,使其能够快速进行商业化部署。

Helix由两个系统组成,这两个系统经过端到端训练,并能够相互通信。

Helix系统架构

系统2:VLM主干,基于在互联网规模数据上预训练的7B开源VLM。它将单目机器人图像和机器人状态信息(包括手腕姿势和手指位置)投射到视觉语言嵌入空间后进行处理。

其工作频率为7-9 Hz,用于场景和语言理解,从而对不同的对象和语境进行广泛的泛化。

系统1:一个80M参数的交叉注意力Transformer,用于处理底层控制。它依赖于一个完全卷积、多尺度的视觉骨干网络进行视觉处理,该骨干网络完全在模拟环境中进行预训练初始化。

它将S2生成的潜在语义表示转化为精确的连续机器人动作,包括所需的手腕姿势、手指弯曲和外展控制以及躯干和头部方向目标。速度为200Hz。

他们在动作空间中增加了一个合成的“任务完成百分比”动作,使Helix能够预测自己的终止条件,从而更轻松地对多个任务进行排序。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2可以“慢速思考”高级目标,而S1可以“快速思考”以实时执行和调整动作。

训练过程是完全端到端的,从原始像素和文本命令映射到具有标准回归损失的连续动作。

而且Helix不需要针对特定任务进行调整;它保持单个训练阶段和单个神经网络权重集,无需单独的动作头或每个任务的微调阶段。

人形机器人的Scaling Law

Figure CEO透露,这项研究历时一年多,旨在解决通用机器人问题。

与人类一样,Helix可以理解语音、推理问题,并且能够抓取任何物体。

就在两周前,Figure宣布终止与OpenAI的合作关系,当时便预告将在接下来的30天内展示“人形机器人前所未见的技术”。

如今,答案已经揭晓,那就是Helix。

Figure CEO

值得注意的是,Helix还代表了一种新型的Scaling Law。

Figure认为,家庭环境是机器人面临的最大挑战。与受控的工业环境不同,家庭中堆满了无数的物品。为了使机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为,特别是对于它们从未见过的物体。

目前,教会机器人一种新行为需要大量的人力。这可能需要博士级专家手动编程数小时,或者进行数千次演示。

这两种方法都成本高昂,因此行不通。

传统机器人训练方式成本高昂

与早期的机器人系统不同,Helix能够即时生成长时程、协作式、灵巧的操作,而无需任何特定任务的演示或大量的手动编程。

Helix 表现出强大的物体泛化能力,能够拾取数千种形状、大小、颜色和材料特性各异的全新家居用品,而这些物品在训练中从未见过,只需用自然语言提问即可。

这意味着,Figure在扩展人形机器人行为方面迈出了革命性的一步。

展望未来,如果Helix扩大1000倍,机器人数量扩展到数十亿级别,将会呈现怎样的景象?我们充满期待。

更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 20人团队估值110亿:前百度高管做的AI Agent,凭什么这么值钱?

  • 谷歌发布Veo3.1Lite:视频生成降至0.05美元/秒,低价抢食Sora退场空白

  • OpenAI正式宣布完成新一轮融资,募集资金规模高达1220亿美元,投后估值飙升至8520亿美元

  • Anthropic史诗级泄露,Claude Code CLI 51万行源码直接裸奔(附下载地址)

  • unway搞了个Multi-Shot App:AI视频从"单镜头"进化到"一键成片"

热点资讯

美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

4天前
美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

字节Seedance 2.0全面开放API:多模态视频生成进入"生产级"时代

4天前
字节Seedance 2.0全面开放API:多模态视频生成进入"生产级"时代

中国广电联合会演员委员会严正声明:AI换脸、声纹克隆侵权行为将被全面追责

3天前
中国广电联合会演员委员会严正声明:AI换脸、声纹克隆侵权行为将被全面追责

千问AI眼镜迎来首次OTA升级:首创AI克隆同传,打通支付宝淘宝生态

4天前
千问AI眼镜迎来首次OTA升级:首创AI克隆同传,打通支付宝淘宝生态

豆包日均Token破120万亿:国产大模型调用量首超海外,AI进入应用爆发期

4天前
豆包日均Token破120万亿:国产大模型调用量首超海外,AI进入应用爆发期
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有