Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
He escuchado esto mucho recientemente: "Entrenamos nuestro robot en un objeto y se generalizó a un objeto novedoso: ¡estos nuevos modelos de VLA son una locura!"
Hablemos de lo que realmente está sucediendo en esa parte "A" (Acción) de su modelo VLA.
¿Los componentes de Visión y Lenguaje? Son increíbles. Preentrenados con datos a escala de Internet, entienden los objetos, las relaciones espaciales y las instrucciones de tareas mejor que nunca.
¿Pero el componente de acción? Eso todavía se aprende desde cero en sus demostraciones específicas de robots.
Esta es la realidad: su modelo VLA tiene una comprensión a escala de Internet de cómo se ve un destornillador y qué significa "apretar el tornillo". Pero, ¿el patrón motor real para "girar la muñeca mientras se aplica presión hacia abajo"? Eso proviene de sus demostraciones de 500 robots.
Lo que esto significa para la "generalización":
• Generalización de la visión: Reconoce objetos novedosos al instante (gracias al entrenamiento previo)
• Generalización del lenguaje: Comprende las nuevas instrucciones de la tarea (gracias al entrenamiento previo)
• Generalización de acciones: todavía limitado a los patrones motores observados durante el entrenamiento de robots
Pídale a ese mismo robot que "desenrosque la tapa de la botella" y falla porque:
• Visión: Reconoce la botella y la tapa
• Idioma: Entiende "desenroscar"
• Acción: Nunca aprendí el patrón de motor de "girar mientras tira"
La dura verdad sobre los modelos de VLA:
El "VL" le brinda una increíble comprensión de disparo cero. La "A" todavía requiere demostraciones específicas de tareas.
Hemos resuelto el problema de la percepción y el razonamiento. No hemos resuelto el problema de la generalización motora.
25.97K
Populares
Ranking
Favoritas