熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我最近聽到很多關於這個的說法:"我們在一個對象上訓練了我們的機器人,它能夠推廣到一個新對象——這些新的VLA模型真是瘋狂!"
讓我們談談你VLA模型中"A"(動作)部分實際上發生了什麼。
視覺和語言組件?它們令人難以置信。經過互聯網規模的數據預訓練,它們比以往更好地理解對象、空間關係和任務指令。
但是動作組件呢?那仍然是從你特定的機器人演示中從頭學習的。
現實是:你的VLA模型對螺絲刀的外觀和"擰緊螺絲"的含義有互聯網規模的理解。但"在施加向下壓力的同時旋轉手腕"的實際運動模式呢?那來自於你500個機器人演示。
這對"推廣"意味著什麼:
• 視覺推廣:瞬間識別新對象(得益於預訓練)
• 語言推廣:理解新任務指令(得益於預訓練)
• 動作推廣:仍然局限於機器人訓練期間看到的運動模式
讓那個機器人"擰開瓶蓋",它會失敗,因為:
• 視覺:識別瓶子和瓶蓋
• 語言:理解"擰開"
• 動作:從未學習過"扭動同時拉動"的運動模式
關於VLA模型的殘酷真相:
"VL"給你帶來了令人難以置信的零樣本理解。"A"仍然需要特定任務的演示。
我們已經破解了感知和推理問題。我們還沒有破解運動推廣問題。
30.53K
熱門
排行
收藏