Jeg har hørt dette mye i det siste: "Vi trente roboten vår på ett objekt, og det generaliserte til et nytt objekt - disse nye VLA-modellene er sprø!" La oss snakke om hva som faktisk skjer i den «A»-delen (Action) av VLA-modellen din. Visjons- og språkkomponentene? De er utrolige. De er forhåndsopplært på data i internettskala, og forstår objekter, romlige relasjoner og oppgaveinstruksjoner bedre enn noensinne. Men handlingskomponenten? Det lærer du fortsatt fra bunnen av på dine spesifikke robotdemonstrasjoner. Her er virkeligheten: VLA-modellen din har internettskala forståelse av hvordan en skrutrekker ser ut og hva "stram skruen" betyr. Men det faktiske motoriske mønsteret for å "rotere håndleddet mens du bruker trykk nedover"? Det kommer fra dine 500 robotdemoer. Hva dette betyr for "generalisering":   • Synsgeneralisering: Gjenkjenner nye objekter umiddelbart (takket være forhåndsopplæring)   • Språkgeneralisering: Forstår nye oppgaveinstruksjoner (takket være forhåndsopplæring)   • Handlingsgeneralisering: Fortsatt begrenset til motoriske mønstre sett under robottrening Be den samme roboten om å "skru av flaskekorken", og den mislykkes fordi: • Visjon: Gjenkjenner flaske og kork • Språk: Forstår "skru av" • Handling: Har aldri lært motormønsteret "vri mens du trekker" Den harde sannheten om VLA-modeller: «VL» gir deg en utrolig nullskuddsforståelse. "A" krever fortsatt oppgavespesifikke demonstrasjoner. Vi har knekt persepsjons- og resonnementproblemet. Vi har ikke knekt problemet med motorisk generalisering.
30,53K