Am auzit asta de multe ori în ultima vreme: "Ne-am antrenat robotul pe un obiect și s-a generalizat la un obiect nou - aceste noi modele VLA sunt nebunești!" Să vorbim despre ce se întâmplă de fapt în acea parte "A" (Acțiune) a modelului VLA. Componentele Viziune și Limbaj? Sunt incredibile. Pre-antrenați pe date la scară internet, ei înțeleg obiectele, relațiile spațiale și instrucțiunile de sarcini mai bine ca niciodată. Dar componenta de acțiune? Acest lucru este încă învățat de la zero la demonstrațiile tale specifice de roboți. Iată realitatea: modelul tău VLA înțelege la scară internet cum arată o șurubelniță și ce înseamnă "strânge șurubul". Dar modelul motor real pentru "rotirea încheieturii mâinii în timp ce se aplică presiune în jos"? Asta vine din cele 500 de demonstrații ale roboților. Ce înseamnă acest lucru pentru "generalizare":   • Generalizarea viziunii: Recunoaște instantaneu obiectele noi (datorită pre-antrenamentului)   • Generalizarea limbajului: Înțelege instrucțiunile noi ale sarcinilor (datorită pre-instruirii)   • Generalizarea acțiunilor: Încă limitat la modelele motorii observate în timpul antrenamentului robotului Cereți aceluiași robot să "deșurubeze capacul sticlei" și nu reușește deoarece: • Viziune: Recunoaște sticla și capacul • Limbă: Înțelege "deșurubare" • Acțiune: Nu am învățat niciodată modelul motorului "răsucire în timp ce trageți" Adevărul dur despre modelele VLA: "VL" vă oferă o înțelegere incredibilă zero-shot. "A" necesită încă demonstrații specifice sarcinii. Am rezolvat problema percepției și a raționamentului. Nu am rezolvat problema generalizării motorului.
37,55K