Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Un nuevo modelo de recompensa llamado SARM —> Modelado de Recompensa Consciente de la Etapa para la manipulación robótica a largo plazo ya está en LeRobot! 🤗
La manipulación a largo plazo, rica en contactos (piensa en doblar una camiseta) es desordenada. Las demostraciones naturalmente incluyen vacilaciones, correcciones y calidad variable. El Clonaje de Comportamiento Clásico (BC) trata cada fotograma por igual, SARM adopta un enfoque más inteligente.
🔎 ¿Cómo funciona?
SARM utiliza un modelo de recompensa basado en video para predecir:
• la etapa actual de la tarea
• el progreso detallado dentro de esa etapa (0 → 1)
Esto permite el Clonaje de Comportamiento Alineado a la Recompensa (RA-BC) al reponderar los datos en función de la mejora del progreso, permitiendo que el modelo distinga las trayectorias que avanzan de aquellas que se estancan.
Imagen izquierda: despliegue exitoso, progreso aprendido aumentando suavemente de 0 → 1
Imagen derecha: despliegue no exitoso


👉 Disponible ahora en LeRobot: Paper Sitio web del proyecto
✨ Créditos a los autores originales por este increíble trabajo: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
759
Parte superior
Clasificación
Favoritos
