Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
J'ai beaucoup entendu cela récemment : "Nous avons entraîné notre robot sur un seul objet et il s'est généralisé à un objet nouveau - ces nouveaux modèles VLA sont fous !"
Parlons de ce qui se passe réellement dans cette partie "A" (Action) de votre modèle VLA.
Les composants Vision et Langage ? Ils sont incroyables. Pré-entraînés sur des données à l'échelle d'Internet, ils comprennent les objets, les relations spatiales et les instructions de tâche mieux que jamais.
Mais le composant Action ? Cela s'apprend encore à partir de vos démonstrations spécifiques de robot.
Voici la réalité : Votre modèle VLA a une compréhension à l'échelle d'Internet de ce à quoi ressemble un tournevis et ce que signifie "serrer la vis". Mais le véritable schéma moteur pour "faire pivoter le poignet tout en appliquant une pression vers le bas" ? Cela provient de vos 500 démonstrations de robot.
Ce que cela signifie pour la "généralisation" :
• Généralisation de la Vision : Reconnaît instantanément des objets nouveaux (grâce à la pré-formation)
• Généralisation du Langage : Comprend de nouvelles instructions de tâche (grâce à la pré-formation)
• Généralisation de l'Action : Reste limitée aux schémas moteurs vus lors de l'entraînement du robot
Demandez à ce même robot de "dévisser le bouchon de la bouteille" et il échoue parce que :
• Vision : Reconnaît la bouteille et le bouchon
• Langage : Comprend "dévisser"
• Action : N'a jamais appris le schéma moteur "tordre tout en tirant".
La dure vérité sur les modèles VLA :
Le "VL" vous donne une compréhension incroyable sans exemple. Le "A" nécessite encore des démonstrations spécifiques à la tâche.
Nous avons résolu le problème de perception et de raisonnement. Nous n'avons pas résolu le problème de généralisation moteur.
30,54K
Meilleurs
Classement
Favoris