Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg har hørt dette mye i det siste: "Vi trente roboten vår på ett objekt, og det generaliserte til et nytt objekt - disse nye VLA-modellene er sprø!"
La oss snakke om hva som faktisk skjer i den «A»-delen (Action) av VLA-modellen din.
Visjons- og språkkomponentene? De er utrolige. De er forhåndsopplært på data i internettskala, og forstår objekter, romlige relasjoner og oppgaveinstruksjoner bedre enn noensinne.
Men handlingskomponenten? Det lærer du fortsatt fra bunnen av på dine spesifikke robotdemonstrasjoner.
Her er virkeligheten: VLA-modellen din har internettskala forståelse av hvordan en skrutrekker ser ut og hva "stram skruen" betyr. Men det faktiske motoriske mønsteret for å "rotere håndleddet mens du bruker trykk nedover"? Det kommer fra dine 500 robotdemoer.
Hva dette betyr for "generalisering":
• Synsgeneralisering: Gjenkjenner nye objekter umiddelbart (takket være forhåndsopplæring)
• Språkgeneralisering: Forstår nye oppgaveinstruksjoner (takket være forhåndsopplæring)
• Handlingsgeneralisering: Fortsatt begrenset til motoriske mønstre sett under robottrening
Be den samme roboten om å "skru av flaskekorken", og den mislykkes fordi:
• Visjon: Gjenkjenner flaske og kork
• Språk: Forstår "skru av"
• Handling: Har aldri lært motormønsteret "vri mens du trekker"
Den harde sannheten om VLA-modeller:
«VL» gir deg en utrolig nullskuddsforståelse. "A" krever fortsatt oppgavespesifikke demonstrasjoner.
Vi har knekt persepsjons- og resonnementproblemet. Vi har ikke knekt problemet med motorisk generalisering.
30,53K
Topp
Rangering
Favoritter