我最近听到很多关于这个的说法:"我们在一个对象上训练了我们的机器人,它能够推广到一个新对象——这些新的VLA模型真是疯狂!" 让我们谈谈你VLA模型中"A"(动作)部分实际上发生了什么。 视觉和语言组件?它们令人难以置信。经过互联网规模的数据预训练,它们比以往更好地理解对象、空间关系和任务指令。 但是动作组件呢?那仍然是从你特定的机器人演示中从头学习的。 现实是:你的VLA模型对螺丝刀的外观和"拧紧螺丝"的含义有互联网规模的理解。但"在施加向下压力的同时旋转手腕"的实际运动模式呢?那来自于你500个机器人演示。 这对"推广"意味着什么:   • 视觉推广:瞬间识别新对象(得益于预训练)   • 语言推广:理解新任务指令(得益于预训练)   • 动作推广:仍然局限于机器人训练期间看到的运动模式 让那个机器人"拧开瓶盖",它会失败,因为: • 视觉:识别瓶子和瓶盖 • 语言:理解"拧开" • 动作:从未学习过"扭动同时拉动"的运动模式 关于VLA模型的残酷真相: "VL"给你带来了令人难以置信的零样本理解。"A"仍然需要特定任务的演示。 我们已经破解了感知和推理问题。我们还没有破解运动推广问题。
30.54K