热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
一种新的奖励模型称为 SARM —— 针对长时间机器人操作的阶段感知奖励建模,现在已在 LeRobot 中推出!🤗
长时间、接触丰富的操作(想象一下折叠 T 恤)是复杂的。演示自然会包含犹豫、修正和质量变化。经典的行为克隆(BC)将每一帧视为相同,而 SARM 采取了更智能的方法。
🔎 它是如何工作的?
SARM 使用基于视频的奖励模型来预测:
• 当前任务阶段
• 在该阶段内的细粒度进展(0 → 1)
这通过根据进展改善重新加权数据,使奖励对齐的行为克隆(RA-BC)成为可能,从而使模型能够区分取得进展的轨迹和停滞的轨迹。
左侧图像:成功的展开,学习到的进展平稳增加 0 → 1
右侧图像:不成功的展开


👉 现在在 LeRobot 上可用: 纸质 项目网站
✨ 感谢原作者的精彩作品:Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
863
热门
排行
收藏
