一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

一种新的奖励模型称为 SARM —— 针对长时间机器人操作的阶段感知奖励建模，现在已在 LeRobot 中推出！🤗 长时间、接触丰富的操作（想象一下折叠 T 恤）是复杂的。演示自然会包含犹豫、修正和质量变化。经典的行为克隆（BC）将每一帧视为相同，而 SARM 采取了更智能的方法。 🔎 它是如何工作的？ SARM 使用基于视频的奖励模型来预测： • 当前任务阶段 • 在该阶段内的细粒度进展（0 → 1）这通过根据进展改善重新加权数据，使奖励对齐的行为克隆（RA-BC）成为可能，从而使模型能够区分取得进展的轨迹和停滞的轨迹。左侧图像：成功的展开，学习到的进展平稳增加 0 → 1 右侧图像：不成功的展开

👉 现在在 LeRobot 上可用：纸质项目网站 ✨ 感谢原作者的精彩作品：Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu

863