Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jag har hört detta mycket på sistone: "Vi tränade vår robot på ett objekt och den generaliserade till ett nytt objekt - de här nya VLA-modellerna är galna!"
Låt oss prata om vad som faktiskt händer i den "A" (Action) delen av din VLA-modell.
Visions- och språkkomponenterna? De är otroliga. De är förtränade på data i internetskala och förstår objekt, rumsliga relationer och uppgiftsinstruktioner bättre än någonsin.
Men actionkomponenten? Det kan du fortfarande lära dig från grunden på dina specifika robotdemonstrationer.
Så här ser verkligheten ut: Din VLA-modell har förståelse i internetskala för hur en skruvmejsel ser ut och vad "dra åt skruven" betyder. Men det faktiska motormönstret för att "rotera handleden samtidigt som man applicerar tryck nedåt"? Det kommer från dina 500 robotdemos.
Vad detta innebär för "generalisering":
• Generalisering av synen: Känner igen nya objekt direkt (tack vare förträning)
• Språkgeneralisering: Förstår nya uppgiftsinstruktioner (tack vare förträning)
• Generalisering av aktioner: Fortfarande begränsad till motoriska mönster som ses under robotträning
Be samma robot att "skruva av flasklocket" och det misslyckas eftersom:
• Vision: Känner igen flaska och kork
• Språk: Förstår "skruva loss"
• Åtgärd: Har aldrig lärt sig motormönstret "vrid medan du drar"
Den bistra sanningen om VLA-modeller:
"VL" ger dig en otrolig förståelse med noll skott. "A" kräver fortfarande uppgiftsspecifika demonstrationer.
Vi har knäckt problemet med perception och resonemang. Vi har inte knäckt problemet med motoriska generaliseringar.
30,54K
Topp
Rankning
Favoriter