一個名為 SARM 的新獎勵模型——針對長期機器人操作的階段感知獎勵建模,現在已經在 LeRobot 中推出!🤗 長期接觸豐富的操作(想想摺 T 恤)是混亂的。示範自然會包含猶豫、修正和變化的質量。經典的行為複製(BC)將每一幀視為平等,而 SARM 採取了更智能的方法。 🔎 它是如何運作的? SARM 使用基於視頻的獎勵模型來預測: • 當前任務階段 • 在該階段內的細微進展(0 → 1) 這使得獎勵對齊行為複製(RA-BC)成為可能,通過根據進展改善重新加權數據,讓模型能夠區分那些有進展的軌跡和那些停滯不前的軌跡。 左側圖像:成功的推進,學習的進展平穩增加 0 → 1 右側圖像:不成功的推進
👉 現在在 LeRobot 上可用: Paper 專案網站 ✨ 感謝原作者的精彩作品:Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
862