Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
V poslední době jsem to slyšel často: "Vycvičili jsme našeho robota na jednom objektu a ten to zobecnil na nový objekt - tyto nové modely VLA jsou šílené!"
Promluvme si o tom, co se vlastně děje v této části "A" (akce) vašeho modelu VLA.
Komponenty Vision a Language? Jsou neuvěřitelní. Jsou předem vyškoleni na datech v internetovém měřítku a rozumí objektům, prostorovým vztahům a pokynům úkolů lépe než kdy dříve.
Ale složka Akce? To se stále učíte od nuly na vašich konkrétních demonstracích robotů.
Realita je takováto: Váš model VLA má internetové znalosti o tom, jak vypadá šroubovák a co znamená "utáhnout šroub". Ale skutečný motorický vzorec pro "rotující zápěstí při vyvíjení tlaku směrem dolů"? Vyplývá to z vašich 500 ukázek robotů.
Co to znamená pro "zobecnění":
• Zobecnění zraku: Okamžitě rozpozná nové objekty (díky předběžnému tréninku)
• Zobecnění jazyka: Rozumí novým pokynům k úkolům (díky předběžnému tréninku)
• Zobecnění akce: Stále omezeno na motorické vzorce pozorované během tréninku robota
Požádejte stejného robota, aby "odšrouboval uzávěr láhve" a selže, protože:
• Zrak: Rozpozná láhev a uzávěr
• Jazyk: Rozumí "odšroubovat"
• Akce: Nikdy jsem se nenaučil motorový vzor "kroucení při tahání"
Tvrdá pravda o modelech VLA:
"VL" vám poskytuje neuvěřitelné porozumění nulovému výstřelu. Písmeno "A" stále vyžaduje demonstrace specifické pro daný úkol.
Rozlouskli jsme problém vnímání a uvažování. Nerozlouskli jsme problém zobecnění motorů.
30,53K
Top
Hodnocení
Oblíbené