Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En ny belöningsmodell kallad SARM — > Stage-Aware Reward Modeling for long-horizon robot manipulation finns nu i LeRobot! 🤗
Långhorisont, kontaktrik manipulation (tänk att vika en T-shirt) är rörigt. Demonstrationerna innebär naturligtvis tvekan, korrigeringar och varierande kvalitet. Classic Behavior Cloning (BC) behandlar varje frame lika, SARM tar en smartare väg.
🔎 Hur fungerar det?
SARM använder en videobaserad belöningsmodell för att förutsäga:
• det aktuella uppgiftsstadiet
• finkornig utveckling inom det stadiet (0 → 1)
Detta möjliggör Reward-Aligned Behavior Cloning (RA-BC) genom att omväga data baserat på framstegsförbättring, vilket gör att modellen kan skilja på banor som gör framsteg från de som stannar av.
Vänster bild: lyckad utrullning, inlärd utveckling ökar smidigt 0 → 1
Höger bild: misslyckad lansering


👉 Tillgänglig nu på LeRobot: Paper Project-webbplatsen
✨ Krediter till de ursprungliga författarna för detta fantastiska verk: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
1,07K
Topp
Rankning
Favoriter
