Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eu ouvi muito isso recentemente: "Nós treinamos nosso robô em um objeto e ele se generalizou para um novo objeto - esses novos modelos VLA são loucos!"
Vamos falar sobre o que realmente está acontecendo nessa parte "A" (Ação) do seu modelo VLA.
Os componentes Visão e Linguagem? Eles são incríveis. Pré-treinados em dados em escala de internet, eles entendem objetos, relações espaciais e instruções de tarefas melhor do que nunca.
Mas o componente Ação? Isso ainda é aprendido do zero em suas demonstrações específicas de robôs.
Aqui está a realidade: seu modelo VLA tem compreensão em escala de internet de como é uma chave de fenda e o que significa "apertar o parafuso". Mas o padrão motor real para "girar o pulso enquanto aplica pressão para baixo"? Isso vem de suas demonstrações de 500 robôs.
O que isso significa para "generalização":
• Generalização da visão: Reconhece novos objetos instantaneamente (graças ao pré-treino)
• Generalização da linguagem: Compreende as novas instruções de tarefas (graças ao pré-treinamento)
• Generalização da ação: ainda limitado aos padrões motores observados durante o treinamento do robô
Peça a esse mesmo robô para "desparafusar a tampa da garrafa" e ele falhará porque:
• Visão: Reconhece o frasco e a tampa
• Idioma: Entende "desaparafusar"
• Ação: Nunca aprendi o padrão do motor "torcer ao puxar"
A dura verdade sobre os modelos VLA:
O "VL" oferece uma incrível compreensão zero-shot. O "A" ainda requer demonstrações específicas da tarefa.
Nós resolvemos o problema da percepção e do raciocínio. Não resolvemos o problema da generalização motora.
30,54K
Melhores
Classificação
Favoritos