Eu ouvi muito isso recentemente: "Nós treinamos nosso robô em um objeto e ele se generalizou para um novo objeto - esses novos modelos VLA são loucos!" Vamos falar sobre o que realmente está acontecendo nessa parte "A" (Ação) do seu modelo VLA. Os componentes Visão e Linguagem? Eles são incríveis. Pré-treinados em dados em escala de internet, eles entendem objetos, relações espaciais e instruções de tarefas melhor do que nunca. Mas o componente Ação? Isso ainda é aprendido do zero em suas demonstrações específicas de robôs. Aqui está a realidade: seu modelo VLA tem compreensão em escala de internet de como é uma chave de fenda e o que significa "apertar o parafuso". Mas o padrão motor real para "girar o pulso enquanto aplica pressão para baixo"? Isso vem de suas demonstrações de 500 robôs. O que isso significa para "generalização":   • Generalização da visão: Reconhece novos objetos instantaneamente (graças ao pré-treino)   • Generalização da linguagem: Compreende as novas instruções de tarefas (graças ao pré-treinamento)   • Generalização da ação: ainda limitado aos padrões motores observados durante o treinamento do robô Peça a esse mesmo robô para "desparafusar a tampa da garrafa" e ele falhará porque: • Visão: Reconhece o frasco e a tampa • Idioma: Entende "desaparafusar" • Ação: Nunca aprendi o padrão do motor "torcer ao puxar" A dura verdade sobre os modelos VLA: O "VL" oferece uma incrível compreensão zero-shot. O "A" ainda requer demonstrações específicas da tarefa. Nós resolvemos o problema da percepção e do raciocínio. Não resolvemos o problema da generalização motora.
30,54K