J'ai beaucoup entendu cela récemment : "Nous avons entraîné notre robot sur un seul objet et il s'est généralisé à un objet nouveau - ces nouveaux modèles VLA sont fous !" Parlons de ce qui se passe réellement dans cette partie "A" (Action) de votre modèle VLA. Les composants Vision et Langage ? Ils sont incroyables. Pré-entraînés sur des données à l'échelle d'Internet, ils comprennent les objets, les relations spatiales et les instructions de tâche mieux que jamais. Mais le composant Action ? Cela s'apprend encore à partir de vos démonstrations spécifiques de robot. Voici la réalité : Votre modèle VLA a une compréhension à l'échelle d'Internet de ce à quoi ressemble un tournevis et ce que signifie "serrer la vis". Mais le véritable schéma moteur pour "faire pivoter le poignet tout en appliquant une pression vers le bas" ? Cela provient de vos 500 démonstrations de robot. Ce que cela signifie pour la "généralisation" :   • Généralisation de la Vision : Reconnaît instantanément des objets nouveaux (grâce à la pré-formation)   • Généralisation du Langage : Comprend de nouvelles instructions de tâche (grâce à la pré-formation)   • Généralisation de l'Action : Reste limitée aux schémas moteurs vus lors de l'entraînement du robot Demandez à ce même robot de "dévisser le bouchon de la bouteille" et il échoue parce que : • Vision : Reconnaît la bouteille et le bouchon • Langage : Comprend "dévisser" • Action : N'a jamais appris le schéma moteur "tordre tout en tirant". La dure vérité sur les modèles VLA : Le "VL" vous donne une compréhension incroyable sans exemple. Le "A" nécessite encore des démonstrations spécifiques à la tâche. Nous avons résolu le problème de perception et de raisonnement. Nous n'avons pas résolu le problème de généralisation moteur.
30,54K