Um novo modelo de recompensa chamado SARM — > Modelagem de Recompensa Consciente de Estágio para manipulação de robôs no longo horizonte já está no LeRobot! 🤗 Manipulação de longo horizonte e rica em contatos (pense em dobrar uma camiseta) é bagunçada. Demonstrações naturalmente incluem hesitações, correções e qualidade variável. A Clonagem Clássica de Comportamento (BC) trata cada quadro de forma igual, o SARM adota uma abordagem mais inteligente. 🔎 Como funciona? O SARM utiliza um modelo de recompensa baseado em vídeo para prever: • Estágio atual da tarefa • progresso detalhado dentro dessa etapa (0 → 1) Isso possibilita a Clonagem de Comportamento Alinhada à Recompensa (RA-BC) ao reavaliar dados com base na melhoria do progresso, permitindo que o modelo distinga trajetórias que avançam daquelas que travam. Imagem à esquerda: lançamento bem-sucedido, progresso aprendido aumentando suavemente 0 → 1 Imagem à direita: lançamento malsucedido
👉 Disponível agora no site LeRobot: Projeto em Papel ✨ Créditos aos autores originais por esta obra incrível: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
910