一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我最近聽到很多關於這個的說法："我們在一個對象上訓練了我們的機器人，它能夠推廣到一個新對象——這些新的VLA模型真是瘋狂！" 讓我們談談你VLA模型中"A"（動作）部分實際上發生了什麼。視覺和語言組件？它們令人難以置信。經過互聯網規模的數據預訓練，它們比以往更好地理解對象、空間關係和任務指令。但是動作組件呢？那仍然是從你特定的機器人演示中從頭學習的。現實是：你的VLA模型對螺絲刀的外觀和"擰緊螺絲"的含義有互聯網規模的理解。但"在施加向下壓力的同時旋轉手腕"的實際運動模式呢？那來自於你500個機器人演示。這對"推廣"意味著什麼： • 視覺推廣：瞬間識別新對象（得益於預訓練） • 語言推廣：理解新任務指令（得益於預訓練） • 動作推廣：仍然局限於機器人訓練期間看到的運動模式讓那個機器人"擰開瓶蓋"，它會失敗，因為： • 視覺：識別瓶子和瓶蓋 • 語言：理解"擰開" • 動作：從未學習過"扭動同時拉動"的運動模式關於VLA模型的殘酷真相： "VL"給你帶來了令人難以置信的零樣本理解。"A"仍然需要特定任務的演示。我們已經破解了感知和推理問題。我們還沒有破解運動推廣問題。

30.53K