V poslední době jsem to slyšel často: "Vycvičili jsme našeho robota na jednom objektu a ten to zobecnil na nový objekt - tyto nové modely VLA jsou šílené!" Promluvme si o tom, co se vlastně děje v této části "A" (akce) vašeho modelu VLA. Komponenty Vision a Language? Jsou neuvěřitelní. Jsou předem vyškoleni na datech v internetovém měřítku a rozumí objektům, prostorovým vztahům a pokynům úkolů lépe než kdy dříve. Ale složka Akce? To se stále učíte od nuly na vašich konkrétních demonstracích robotů. Realita je takováto: Váš model VLA má internetové znalosti o tom, jak vypadá šroubovák a co znamená "utáhnout šroub". Ale skutečný motorický vzorec pro "rotující zápěstí při vyvíjení tlaku směrem dolů"? Vyplývá to z vašich 500 ukázek robotů. Co to znamená pro "zobecnění":   • Zobecnění zraku: Okamžitě rozpozná nové objekty (díky předběžnému tréninku)   • Zobecnění jazyka: Rozumí novým pokynům k úkolům (díky předběžnému tréninku)   • Zobecnění akce: Stále omezeno na motorické vzorce pozorované během tréninku robota Požádejte stejného robota, aby "odšrouboval uzávěr láhve" a selže, protože: • Zrak: Rozpozná láhev a uzávěr • Jazyk: Rozumí "odšroubovat" • Akce: Nikdy jsem se nenaučil motorový vzor "kroucení při tahání" Tvrdá pravda o modelech VLA: "VL" vám poskytuje neuvěřitelné porozumění nulovému výstřelu. Písmeno "A" stále vyžaduje demonstrace specifické pro daný úkol. Rozlouskli jsme problém vnímání a uvažování. Nerozlouskli jsme problém zobecnění motorů.
30,53K