AI升维！TesserAct让机器人秒懂四维空间，抓牛奶不再费劲！-AITOP100,AI资讯

还在让AI“盲人摸象”？这“四维大脑”让机器人瞬间开窍！

有没有发现，那些能写诗作画的AI，好像对咱们现实生活中的三维空间不太灵光？现在的AI世界模型，大多还在二维平面里“思考”。它们能认出照片里的猫，但要理解物体的位置、形状和深度，就有点抓瞎了。这可限制了AI，特别是机器人在真实世界里的应用。

不过，好消息来了！UMass Amherst、香港科技大学和哈佛大学的科研大佬们，搞了个大新闻——TesserAct，一个真正理解四维世界的AI模型！这名字是不是听着很科幻？没错，它的功能也相当给力：让AI理解三维空间加上时间维度！

2D模型弱爆了！看TesserAct如何拯救“手残”机器人

想想看，如果一个机器人只能理解平面图像，让它从冰箱里拿牛奶，那画面简直太美不敢看！它没法准确判断距离，不知道怎么调整爪子的姿势，更别提预测牛奶会怎么动了。这对于需要和真实世界互动的机器人来说，简直是灾难！

TesserAct的厉害之处在于，它没有直接预测复杂的4D动态场景，而是选择了一种更聪明的办法：预测未来的RGB-DN视频流。这个组合包含了彩色图像（RGB）、深度图(D)和法线图(N)。深度图就像给AI戴上了3D眼镜，告诉它画面里每个点的距离；法线图则告诉它物体表面的朝向，让AI能“摸”到物体的形状和纹理。这三种信息组合起来，既有物体外观，又有关键的3D几何信息，还能捕捉时间的变化！

数据是关键！“虚实结合” 喂饱AI的“四维胃”

要获得这种4D数据可不容易。研究团队用了个“虚实结合”的妙招：在机器人仿真环境里，生成大量带有精确深度信息的数据；同时，用先进算法给真实的机器人视频加上深度和法线标注；甚至还加入了人类与物体交互的数据。这套创新的数据集，就成了训练TesserAct的基础。

站在巨人肩膀上！ CogVideoX“魔改”变身四维专家

在模型结构上，团队并没有从零开始，而是巧妙地利用了预训练的CogVideoX文本到视频生成模型。他们对模型进行了“魔改”：分别对RGB、深度和法线视频进行编码，设计了专门的“投影仪”来处理这三种信息，同时扩展了输出端，预测完整的RGB-DN数据。这种方法最大限度地利用了预训练模型的知识，只需要在相对较小的4D数据集上微调。