一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我最近听到很多关于这个的说法："我们在一个对象上训练了我们的机器人，它能够推广到一个新对象——这些新的VLA模型真是疯狂！" 让我们谈谈你VLA模型中"A"（动作）部分实际上发生了什么。视觉和语言组件？它们令人难以置信。经过互联网规模的数据预训练，它们比以往更好地理解对象、空间关系和任务指令。但是动作组件呢？那仍然是从你特定的机器人演示中从头学习的。现实是：你的VLA模型对螺丝刀的外观和"拧紧螺丝"的含义有互联网规模的理解。但"在施加向下压力的同时旋转手腕"的实际运动模式呢？那来自于你500个机器人演示。这对"推广"意味着什么： • 视觉推广：瞬间识别新对象（得益于预训练） • 语言推广：理解新任务指令（得益于预训练） • 动作推广：仍然局限于机器人训练期间看到的运动模式让那个机器人"拧开瓶盖"，它会失败，因为： • 视觉：识别瓶子和瓶盖 • 语言：理解"拧开" • 动作：从未学习过"扭动同时拉动"的运动模式关于VLA模型的残酷真相： "VL"给你带来了令人难以置信的零样本理解。"A"仍然需要特定任务的演示。我们已经破解了感知和推理问题。我们还没有破解运动推广问题。

30.54K