Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um novo modelo de recompensa chamado SARM —> Modelagem de Recompensa Consciente do Estágio para manipulação robótica de longo prazo está agora no LeRobot! 🤗
A manipulação de longo prazo, rica em contatos (pense em dobrar uma T-shirt) é bagunçada. As demonstrações naturalmente incluem hesitações, correções e qualidade variável. O Clonagem Comportamental Clássica (BC) trata cada quadro de forma igual, o SARM adota uma abordagem mais inteligente.
🔎 Como funciona?
O SARM utiliza um modelo de recompensa baseado em vídeo para prever:
• o estágio atual da tarefa
• progresso detalhado dentro desse estágio (0 → 1)
Isso possibilita a Clonagem Comportamental Alinhada à Recompensa (RA-BC) ao reponderar os dados com base na melhoria do progresso, permitindo que o modelo distinga trajetórias que fazem progresso daquelas que estagnam.
Imagem à esquerda: execução bem-sucedida, progresso aprendido aumentando suavemente de 0 → 1
Imagem à direita: execução malsucedida


👉 Disponível agora no LeRobot: Paper Website do projeto
✨ Créditos aos autores originais por este trabalho incrível: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
855
Top
Classificação
Favoritos
