腾讯具身大模型开源了:机器人"看懂、想清、做到"的全流程,这次都有专属模型
腾讯 Robotics X 实验室和混元团队最近联合开源了一款专门给机器人用的多模态大模型——HY-Embodied-0.5-X。
这个模型的出现,解决了一个很实在的问题:通用大模型很强,但直接塞给机器人用,往往在"空间感知"和"动作执行"上差点意思。HY-Embodied-0.5-X就是从底层架构到训练范式,专门为具身智能量身定制的。

MoT架构:比MoE更适合机器人?
HY-Embodied-0.5系列包含两个版本:MoT-2B(端侧部署)和MoE-32B(复杂推理)。
值得专门说的是MoT(Mixture-of-Transformers)架构。它和常见的MoE(混合专家)有什么不同?
MoE的核心是让模型在不同任务时只激活部分专家子集,节省计算量。MoT在此基础上,额外引入了视觉潜在Token机制——在处理图像时,不是把所有像素都变成Token,而是先压缩成更精炼的视觉表征,再与语言空间对齐。
这样做的好处是:机器人在"看"一个物体时,不需要处理海量像素级的信息,而是直接提取空间关系、物体轮廓、动作目标等高语义信息。这对于需要实时响应的机器人来说,推理速度会快很多。
此外,MoT还用了原生分辨率视觉编码器,不需要先把图像缩放到固定尺寸再处理,保持了原始视觉信息的精度。
实测数据:16项最佳,刷新行业纪录
HY-Embodied-0.5系列在22项权威具身智能评测中取得了16项SOTA。
具体来说:
- MoT-2B端侧版本:40亿总参数,推理时只激活20亿。在16项基准测试中,超越所有同规模最优模型。换句话说,2B级别里它最强。
- MoE-32B版本:总参数4070亿,激活320亿,性能可比肩Gemini 3.0 Pro前沿水平。
32B版本对标Gemini 3.0 Pro这个信息挺有意思——腾讯第一次把自己的具身模型直接放到和Gemini同一个量级上比较,而不是只说"国内领先"。

“看懂、想清、做到”:机器人从指令执行走向任务自主
HY-Embodied-0.5-X的核心能力,可以概括为三个方向:
第一,看懂:精细操作理解。不是简单地"识别物体在哪里",而是理解物体之间的空间关系、遮挡关系、材质特性(比如"拿起这个玻璃杯"和"拿起这个铁块"的动作力道完全不同)。
第二,想清:长程规划。机器人在执行复杂任务时,需要把一个高层次目标分解成多个子步骤,并能在执行过程中根据环境变化调整计划。
第三,做到:动作预测与风险判断。机器人不仅要规划动作,还要预判动作可能带来的后果(撞到障碍物、物体滑落等),并提前规避。
训练数据:超1亿条具身专属数据
支撑这些能力的基础,是超过1亿条高质量具身专属数据,包括自采的机器人第一视角操作数据和开源具身数据集。
团队还引入了思维链标注和数据质量闭环——在训练过程中,让模型显式输出推理步骤(“先看夹爪位置,再计算抓取角度……”),然后通过质量筛选只保留正确推理对应的数据,逐步提升模型表现。
训练策略采用了分阶段迭代:先用小规模高质量数据验证训练配置,确认有效后再扩展到大规模。这种方法提升了训练效率和稳定性。
开源已上线GitHub和Hugging Face
目前,MoT-2B模型权重及推理代码已登陆GitHub和Hugging Face,HY-Embodied-0.5-X增强版也同步开源。
这意味着开发者和研究者可以直接下载模型,在自己的机械臂/移动机器人上做部署和微调,不需要找腾讯申请。
- Github地址:https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X
- Hugging face地址:https://huggingface.co/tencent/HY-Embodied-0.5-X
为什么这件事值得关注
具身智能这几年一直是AI领域最热的赛道之一,但落地卡脖子的问题始终是"最后一公里"——模型在仿真环境里表现不错,放到真实机器人上就容易出问题。
HY-Embodied-0.5-X这次专门针对真实交互场景优化,加上MoT架构在视觉-语言对齐上的优势,让机器人在物理世界里的可用性往前走了一步。从家庭服务机器人到工业柔性生产线,这项开源成果都可能加速落地速度。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










