我最近聽到很多關於這個的說法:"我們在一個對象上訓練了我們的機器人,它能夠推廣到一個新對象——這些新的VLA模型真是瘋狂!" 讓我們談談你VLA模型中"A"(動作)部分實際上發生了什麼。 視覺和語言組件?它們令人難以置信。經過互聯網規模的數據預訓練,它們比以往更好地理解對象、空間關係和任務指令。 但是動作組件呢?那仍然是從你特定的機器人演示中從頭學習的。 現實是:你的VLA模型對螺絲刀的外觀和"擰緊螺絲"的含義有互聯網規模的理解。但"在施加向下壓力的同時旋轉手腕"的實際運動模式呢?那來自於你500個機器人演示。 這對"推廣"意味著什麼:   • 視覺推廣:瞬間識別新對象(得益於預訓練)   • 語言推廣:理解新任務指令(得益於預訓練)   • 動作推廣:仍然局限於機器人訓練期間看到的運動模式 讓那個機器人"擰開瓶蓋",它會失敗,因為: • 視覺:識別瓶子和瓶蓋 • 語言:理解"擰開" • 動作:從未學習過"扭動同時拉動"的運動模式 關於VLA模型的殘酷真相: "VL"給你帶來了令人難以置信的零樣本理解。"A"仍然需要特定任務的演示。 我們已經破解了感知和推理問題。我們還沒有破解運動推廣問題。
30.53K