𝗛𝗮𝗯𝗲𝗿 𝗵𝗲𝗰𝗵𝗼 𝗲𝘀𝘁𝗼 𝗺𝘂𝗰𝗵𝗼 𝗿𝗲𝗰𝗶𝗲𝗻𝘁𝗲𝗺𝗲𝗻𝘁𝗲: "𝗡𝗼𝘀𝗼𝘁𝗿𝗼𝘀 𝘁𝗿𝗮𝗶𝗻𝗲𝗺𝗼𝘀 𝗻𝘂𝗲𝘀𝘁𝗿𝗼 𝗿𝗼𝗯𝗼𝘁 𝗲𝗻 𝗼𝗯𝗷𝗲𝗰𝘁𝗼 𝗮𝗻𝗱 𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗼 𝗮 𝗮𝗻𝗼𝘁𝗵𝗲𝗿 𝗼𝗯𝗷𝗲𝗰𝘁 - 𝗲𝘀𝘁𝗼𝘀 𝗻𝗲𝘄𝗼𝘀 𝗺𝗼𝗱𝗲𝗹𝗼𝘀 𝗩𝗟𝗔 𝗲𝘀𝘁𝗮𝗻 𝗰𝗿𝗮𝘇𝘆!" 𝗩𝗮𝗺𝗼𝘀 𝗮 𝗵𝗮𝗯𝗹𝗮𝗿 𝗱𝗲 𝗹𝗼 𝗾𝘂𝗲 𝗲𝘀𝘁𝗮 𝗵𝗮𝗰𝗶𝗲𝗻𝗱𝗼 𝗲𝗻 𝗲𝗹 𝗽𝗮𝗿𝘁𝗲 "𝗔" (𝗔𝗰𝘁𝗶𝗼𝗻) 𝗱𝗲 𝘁𝘂 𝗺𝗼𝗱𝗲𝗹𝗼 𝗩𝗟𝗔. ¿Los componentes de Visión y Lenguaje? Son increíbles. Pre-entrenados en datos a escala de internet, entienden objetos, relaciones espaciales e instrucciones de tareas mejor que nunca. ¿Pero el componente de Acción? Eso todavía se aprende desde cero en tus demostraciones específicas de robot. 𝗟𝗢 𝗤𝗨𝗘 𝗘𝗦 𝗟𝗔 𝗥𝗘𝗔𝗟𝗜𝗗𝗔𝗗: Tu modelo VLA tiene un entendimiento a escala de internet de cómo se ve un destornillador y lo que significa "apretar el tornillo". Pero el patrón motor real para "rotar la muñeca mientras se aplica presión hacia abajo"? Eso proviene de tus 500 demostraciones de robot. 𝗤𝗨𝗘 𝗦𝗜𝗚𝗡𝗜𝗙𝗜𝗖𝗔 𝗘𝗦𝗢 𝗣𝗔𝗥𝗔 "𝗚𝗘𝗡𝗘𝗥𝗔𝗟𝗜𝗭𝗔𝗖𝗜𝗢𝗡":   • 𝗚𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰𝗶𝗼𝗻 𝗱𝗲 𝗩𝗶𝘀𝗶𝗼́𝗻: Reconoce objetos nuevos al instante (gracias al pre-entrenamiento)   • 𝗚𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰𝗶𝗼𝗻 𝗱𝗲 𝗟𝗲𝗻𝗴𝘂𝗮: Entiende nuevas instrucciones de tareas (gracias al pre-entrenamiento)   • 𝗚𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰𝗶𝗼𝗻 𝗱𝗲 𝗔𝗰𝗰𝗶𝗼́𝗻: Aún limitado a patrones motores vistos durante el entrenamiento del robot Pide a ese mismo robot que "desenrosque la tapa de la botella" y falla porque: • Visión: Reconoce la botella y la tapa • Lenguaje: Entiende "desenroscar" • Acción: Nunca aprendió el patrón motor de "girar mientras tira" 𝗟𝗔 𝗛𝗔𝗥𝗗 𝗧𝗥𝗨𝗧𝗛 𝗔𝗕𝗢𝗨𝗧 𝗩𝗟𝗔 𝗠𝗢𝗗𝗘𝗟𝗢𝗦: El "VL" te da una comprensión increíble de cero disparos. La "A" aún requiere demostraciones específicas de tareas. Hemos resuelto el problema de percepción y razonamiento. No hemos resuelto el problema de generalización motora.
30,53K