Um novo modelo de recompensa chamado SARM —> Modelagem de Recompensa Consciente do Estágio para manipulação robótica de longo prazo está agora no LeRobot! 🤗 A manipulação de longo prazo, rica em contatos (pense em dobrar uma T-shirt) é bagunçada. As demonstrações naturalmente incluem hesitações, correções e qualidade variável. O Clonagem Comportamental Clássica (BC) trata cada quadro de forma igual, o SARM adota uma abordagem mais inteligente. 🔎 Como funciona? O SARM utiliza um modelo de recompensa baseado em vídeo para prever: • o estágio atual da tarefa • progresso detalhado dentro desse estágio (0 → 1) Isso possibilita a Clonagem Comportamental Alinhada à Recompensa (RA-BC) ao reponderar os dados com base na melhoria do progresso, permitindo que o modelo distinga trajetórias que fazem progresso daquelas que estagnam. Imagem à esquerda: execução bem-sucedida, progresso aprendido aumentando suavemente de 0 → 1 Imagem à direita: execução malsucedida
👉 Disponível agora no LeRobot: Paper Website do projeto ✨ Créditos aos autores originais por este trabalho incrível: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
855