トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しい報酬モデルであるSARM — > Stage-Aware Reward Modeling for long-horizon robot manipulationがLeRobotに搭載されました!🤗
長期的で接触を多用する操作(Tシャツをたたむようなもの)は混沌とします。デモンストレーションには当然ながらためらい、修正、品質の変動が含まれます。クラシックな挙動クローン(BC)はすべてのフレームを平等に扱いますが、SARMはより賢いアプローチを取っています。
🔎 どのように機能するのですか?
SARMはビデオベースの報酬モデルを用いて予測します:
・現在の課題段階
・その段階内での細かい進捗(0 → 1)
これにより、進行状況の改善に基づいてデータを再重み付けすることで報酬調整行動クローン(RA-BC)が可能となり、モデルは進展のある軌跡と停滞する軌跡を区別できます。
左画像:展開に成功、進捗をスムーズに増加させて0→1
右画像:失敗した展開


👉 現在、LeRobot: Paper Projectのウェブサイトで入手可能です。
✨ この素晴らしい作品の原著者に感謝します:陳@QianzhongChen千中、ジャスティン・ユー、マック・シュヴァーガー、ピーテル・アビール、イデ・シェントゥ、フィリップ・ウー
854
トップ
ランキング
お気に入り
