热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我最近听到很多关于这个的说法:"我们在一个对象上训练了我们的机器人,它能够推广到一个新对象——这些新的VLA模型真是疯狂!"
让我们谈谈你VLA模型中"A"(动作)部分实际上发生了什么。
视觉和语言组件?它们令人难以置信。经过互联网规模的数据预训练,它们比以往更好地理解对象、空间关系和任务指令。
但是动作组件呢?那仍然是从你特定的机器人演示中从头学习的。
现实是:你的VLA模型对螺丝刀的外观和"拧紧螺丝"的含义有互联网规模的理解。但"在施加向下压力的同时旋转手腕"的实际运动模式呢?那来自于你500个机器人演示。
这对"推广"意味着什么:
• 视觉推广:瞬间识别新对象(得益于预训练)
• 语言推广:理解新任务指令(得益于预训练)
• 动作推广:仍然局限于机器人训练期间看到的运动模式
让那个机器人"拧开瓶盖",它会失败,因为:
• 视觉:识别瓶子和瓶盖
• 语言:理解"拧开"
• 动作:从未学习过"扭动同时拉动"的运动模式
关于VLA模型的残酷真相:
"VL"给你带来了令人难以置信的零样本理解。"A"仍然需要特定任务的演示。
我们已经破解了感知和推理问题。我们还没有破解运动推广问题。
30.54K
热门
排行
收藏