En ny belöningsmodell kallad SARM — > Stage-Aware Reward Modeling for long-horizon robot manipulation finns nu i LeRobot! 🤗 Långhorisont, kontaktrik manipulation (tänk att vika en T-shirt) är rörigt. Demonstrationerna innebär naturligtvis tvekan, korrigeringar och varierande kvalitet. Classic Behavior Cloning (BC) behandlar varje frame lika, SARM tar en smartare väg. 🔎 Hur fungerar det? SARM använder en videobaserad belöningsmodell för att förutsäga: • det aktuella uppgiftsstadiet • finkornig utveckling inom det stadiet (0 → 1) Detta möjliggör Reward-Aligned Behavior Cloning (RA-BC) genom att omväga data baserat på framstegsförbättring, vilket gör att modellen kan skilja på banor som gör framsteg från de som stannar av. Vänster bild: lyckad utrullning, inlärd utveckling ökar smidigt 0 → 1 Höger bild: misslyckad lansering
👉 Tillgänglig nu på LeRobot: Paper Project-webbplatsen ✨ Krediter till de ursprungliga författarna för detta fantastiska verk: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
1,07K