一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

一個名為 SARM 的新獎勵模型——針對長期機器人操作的階段感知獎勵建模，現在已經在 LeRobot 中推出！🤗 長期接觸豐富的操作（想想摺 T 恤）是混亂的。示範自然會包含猶豫、修正和變化的質量。經典的行為複製（BC）將每一幀視為平等，而 SARM 採取了更智能的方法。 🔎 它是如何運作的？ SARM 使用基於視頻的獎勵模型來預測： • 當前任務階段 • 在該階段內的細微進展（0 → 1）這使得獎勵對齊行為複製（RA-BC）成為可能，通過根據進展改善重新加權數據，讓模型能夠區分那些有進展的軌跡和那些停滯不前的軌跡。左側圖像：成功的推進，學習的進展平穩增加 0 → 1 右側圖像：不成功的推進

👉 現在在 LeRobot 上可用： Paper 專案網站 ✨ 感謝原作者的精彩作品：Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu

862