一种新的奖励模型称为 SARM —— 针对长时间机器人操作的阶段感知奖励建模,现在已在 LeRobot 中推出!🤗 长时间、接触丰富的操作(想象一下折叠 T 恤)是复杂的。演示自然会包含犹豫、修正和质量变化。经典的行为克隆(BC)将每一帧视为相同,而 SARM 采取了更智能的方法。 🔎 它是如何工作的? SARM 使用基于视频的奖励模型来预测: • 当前任务阶段 • 在该阶段内的细粒度进展(0 → 1) 这通过根据进展改善重新加权数据,使奖励对齐的行为克隆(RA-BC)成为可能,从而使模型能够区分取得进展的轨迹和停滞的轨迹。 左侧图像:成功的展开,学习到的进展平稳增加 0 → 1 右侧图像:不成功的展开
👉 现在在 LeRobot 上可用: 纸质 项目网站 ✨ 感谢原作者的精彩作品:Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
863