Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich habe das in letzter Zeit oft gehört: "Wir haben unseren Roboter auf ein Objekt trainiert und er hat sich auf ein neues Objekt verallgemeinert - diese neuen VLA-Modelle sind verrückt!"
Lass uns darüber sprechen, was tatsächlich im "A" (Aktion) Teil deines VLA-Modells passiert.
Die Vision- und Sprachkomponenten? Sie sind unglaublich. Vortrainiert auf Daten im Internetmaßstab verstehen sie Objekte, räumliche Beziehungen und Aufgabenanweisungen besser als je zuvor.
Aber die Aktionskomponente? Die wird immer noch von Grund auf neu aus deinen spezifischen Roboter-Demonstrationen gelernt.
Hier ist die Realität: Dein VLA-Modell hat ein Verständnis im Internetmaßstab davon, wie ein Schraubendreher aussieht und was "die Schraube anziehen" bedeutet. Aber das tatsächliche Motorpattern für "Handgelenk drehen, während Druck nach unten ausgeübt wird"? Das kommt von deinen 500 Roboter-Demos.
Was das für die "Verallgemeinerung" bedeutet:
• Vision-Verallgemeinerung: Erkennt neue Objekte sofort (dank Vortraining)
• Sprach-Verallgemeinerung: Versteht neue Aufgabenanweisungen (dank Vortraining)
• Aktions-Verallgemeinerung: Immer noch auf Motorpatterns beschränkt, die während des Robotertrainings gesehen wurden
Frag denselben Roboter, "schraube den Flaschenverschluss ab" und er scheitert, weil:
• Vision: Erkennt Flasche und Verschluss
• Sprache: Versteht "abschrauben"
• Aktion: Hat das Motorpattern "drehen während des Ziehens" nie gelernt
Die harte Wahrheit über VLA-Modelle:
Das "VL" gibt dir ein unglaubliches Verständnis ohne spezifische Beispiele. Das "A" erfordert immer noch aufgabenspezifische Demonstrationen.
Wir haben das Wahrnehmungs- und Problemlösungsproblem geknackt. Das Motorverallgemeinerungsproblem haben wir noch nicht gelöst.
30,53K
Top
Ranking
Favoriten