新しい報酬モデルであるSARM — > Stage-Aware Reward Modeling for long-horizon robot manipulationがLeRobotに搭載されました!🤗 長期的で接触を多用する操作(Tシャツをたたむようなもの)は混沌とします。デモンストレーションには当然ながらためらい、修正、品質の変動が含まれます。クラシックな挙動クローン(BC)はすべてのフレームを平等に扱いますが、SARMはより賢いアプローチを取っています。 🔎 どのように機能するのですか? SARMはビデオベースの報酬モデルを用いて予測します: ・現在の課題段階 ・その段階内での細かい進捗(0 → 1) これにより、進行状況の改善に基づいてデータを再重み付けすることで報酬調整行動クローン(RA-BC)が可能となり、モデルは進展のある軌跡と停滞する軌跡を区別できます。 左画像:展開に成功、進捗をスムーズに増加させて0→1 右画像:失敗した展開
👉 現在、LeRobot: Paper Projectのウェブサイトで入手可能です。 ✨ この素晴らしい作品の原著者に感謝します:陳@QianzhongChen千中、ジャスティン・ユー、マック・シュヴァーガー、ピーテル・アビール、イデ・シェントゥ、フィリップ・ウー
854