熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
一個名為 SARM 的新獎勵模型——針對長期機器人操作的階段感知獎勵建模,現在已經在 LeRobot 中推出!🤗
長期接觸豐富的操作(想想摺 T 恤)是混亂的。示範自然會包含猶豫、修正和變化的質量。經典的行為複製(BC)將每一幀視為平等,而 SARM 採取了更智能的方法。
🔎 它是如何運作的?
SARM 使用基於視頻的獎勵模型來預測:
• 當前任務階段
• 在該階段內的細微進展(0 → 1)
這使得獎勵對齊行為複製(RA-BC)成為可能,通過根據進展改善重新加權數據,讓模型能夠區分那些有進展的軌跡和那些停滯不前的軌跡。
左側圖像:成功的推進,學習的進展平穩增加 0 → 1
右側圖像:不成功的推進


👉 現在在 LeRobot 上可用: Paper 專案網站
✨ 感謝原作者的精彩作品:Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
862
熱門
排行
收藏
