𝗘𝘀𝘁𝗼𝘂 𝗵𝗲𝗮𝗿𝗱𝗼 𝗶𝘀𝘀𝗼 𝗺𝗮𝗶𝘀 𝗿𝗲𝗰𝗲𝗻𝘁𝗲𝗺𝗲𝗻𝘁𝗲: "𝗡𝗼𝘀 𝗳𝗼𝗺𝗼𝘀 𝗮𝗻𝗮𝗹𝗶𝘀𝗮𝗿 𝗼 𝗻𝗼𝘀𝘀𝗼 𝗿𝗼𝗯𝗼𝘁 𝗲𝗺 𝘂𝗺 𝗼𝗯𝗷𝗲𝗰𝘁𝗼 𝗲 𝗲𝗹𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗼𝘂 𝗽𝗮𝗿𝗮 𝘂𝗺 𝗻𝗼𝘃𝗼 𝗼𝗯𝗷𝗲𝗰𝘁𝗼 - 𝗲𝘀𝘁𝗮𝘀 𝗻𝗲𝘄𝗮𝘀 𝗺𝗼𝗱𝗲𝗹𝗮𝘀 𝗩𝗟𝗔 𝗲𝗿𝗮𝗺 𝗰𝗿𝗮𝘇𝘆!" 𝗩𝗮𝗺𝗼𝘀 𝗽𝗮𝗿𝗹𝗮𝗿 𝘀𝗼𝗯𝗿𝗲 𝗼 𝗾𝘂𝗲 𝗲𝘀𝘁𝗮 𝗮𝗰𝘁𝘂𝗮𝗻𝗱𝗼 𝗻𝗮 𝗽𝗮𝗿𝘁𝗲 "𝗔" (𝗔𝗰̧𝗮𝗼) 𝗱𝗼 𝗺𝗼𝗱𝗲𝗹𝗼 𝗩𝗟𝗔. Os componentes de Visão e Linguagem? Eles são incríveis. Pré-treinados em dados em escala de internet, eles entendem objetos, relações espaciais e instruções de tarefas melhor do que nunca. Mas o componente Ação? Esse ainda é aprendido do zero com as suas demonstrações específicas de robô. 𝗘𝗶𝗰𝗵𝗼 𝗮 𝗿𝗲𝗮𝗹𝗶𝗱𝗮𝗱𝗲: O seu modelo VLA tem uma compreensão em escala de internet de como é uma chave de fenda e o que "apertar o parafuso" significa. Mas o padrão motor real para "girar o pulso enquanto aplica pressão para baixo"? Isso vem das suas 500 demonstrações de robô. 𝗢 𝗾𝘂𝗲 𝗲𝘀𝘁𝗼 𝗺𝗲𝗮𝗻𝘀 𝗽𝗮𝗿𝗮 "𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰̧𝗮𝗼":   • 𝗚𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰̧𝗮𝗼 𝗱𝗲 𝗩𝗶𝘀𝗮̃𝗼: Reconhece objetos novos instantaneamente (graças ao pré-treinamento)   • 𝗚𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰̧𝗮𝗼 𝗱𝗲 𝗟𝗶𝗻𝗴𝘂𝗮𝗴𝗲: Entende novas instruções de tarefas (graças ao pré-treinamento)   • 𝗚𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘇𝗮𝗰̧𝗮𝗼 𝗱𝗲 𝗔𝗰̧𝗮𝗼: Ainda limitado a padrões motores vistos durante o treinamento do robô Peça a esse mesmo robô para "desaparafusar a tampa da garrafa" e ele falha porque: • Visão: Reconhece a garrafa e a tampa • Linguagem: Entende "desaparafusar" • Ação: Nunca aprendeu o padrão motor "girar enquanto puxa" 𝗔 𝗳𝗮𝗹𝗮 𝗱𝗶𝗳𝗶𝗰𝗶𝗹 𝘀𝗼𝗯𝗿𝗲 𝗺𝗼𝗱𝗲𝗹𝗼𝘀 𝗩𝗟𝗔: O "VL" oferece uma compreensão incrível sem exemplos. O "A" ainda requer demonstrações específicas da tarefa. Resolvemos o problema de percepção e raciocínio. Não resolvemos o problema de generalização motora.
30,54K