Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nils Pihl (broodsugar.eth)
Memetiker und cyberdelischer Transhumanist. Mit @AukiLabs die @AukiNetwork aufbauen, den Einzelhandel mit @CactusXR transformieren
Geteilte Wahrnehmung und ein Gefühl für den Raum sind das, was dies beheben wird.

MassimoVor 11 Stunden
Zwei gleich smarte Amazon-Roboter
579
Nils Pihl (broodsugar.eth) erneut gepostet
Epische Vision für räumliche Positionierung. Wenn du ein Entwickler für Augmented Reality bist, schau dir das ZWEIMAL an. Nicht zu technisch, es geht um die Vision, wie unsere Apps *funktionieren sollten. Kein Neustart für den Benutzer mehr, alle 3D-Assets bleiben dort, wo sie zuletzt abgelegt wurden, und werden mit dem physischen Raum verbunden.
469
Nils Pihl (broodsugar.eth) erneut gepostet
Ich habe das in letzter Zeit oft gehört: "Wir haben unseren Roboter auf ein Objekt trainiert und er hat sich auf ein neues Objekt verallgemeinert - diese neuen VLA-Modelle sind verrückt!"
Lass uns darüber sprechen, was tatsächlich im "A" (Aktion) Teil deines VLA-Modells passiert.
Die Vision- und Sprachkomponenten? Sie sind unglaublich. Vortrainiert auf Daten im Internetmaßstab verstehen sie Objekte, räumliche Beziehungen und Aufgabenanweisungen besser als je zuvor.
Aber die Aktionskomponente? Die wird immer noch von Grund auf neu aus deinen spezifischen Roboter-Demonstrationen gelernt.
Hier ist die Realität: Dein VLA-Modell hat ein Verständnis im Internetmaßstab davon, wie ein Schraubendreher aussieht und was "die Schraube anziehen" bedeutet. Aber das tatsächliche Motorpattern für "Handgelenk drehen, während Druck nach unten ausgeübt wird"? Das kommt von deinen 500 Roboter-Demos.
Was das für die "Verallgemeinerung" bedeutet:
• Vision-Verallgemeinerung: Erkennt neue Objekte sofort (dank Vortraining)
• Sprach-Verallgemeinerung: Versteht neue Aufgabenanweisungen (dank Vortraining)
• Aktions-Verallgemeinerung: Immer noch auf Motorpatterns beschränkt, die während des Robotertrainings gesehen wurden
Frag denselben Roboter, "schraube den Flaschenverschluss ab" und er scheitert, weil:
• Vision: Erkennt Flasche und Verschluss
• Sprache: Versteht "abschrauben"
• Aktion: Hat das Motorpattern "drehen während des Ziehens" nie gelernt
Die harte Wahrheit über VLA-Modelle:
Das "VL" gibt dir ein unglaubliches Verständnis ohne spezifische Beispiele. Das "A" erfordert immer noch aufgabenspezifische Demonstrationen.
Wir haben das Wahrnehmungs- und Problemlösungsproblem geknackt. Das Motorverallgemeinerungsproblem haben wir noch nicht gelöst.
30,54K
Nils Pihl (broodsugar.eth) erneut gepostet
Wir bauen ein neues Internet für Robotik und XR, um die physische Welt für KI zugänglich zu machen.
In diesem Jahr heben wir im Video "State of the Auki Network" einige der erstaunlichen Dinge hervor, die bereits im dezentralen Maschinenwahrnehmungsnetzwerk gebaut werden:
5,9K
Nils Pihl (broodsugar.eth) erneut gepostet
Im Jahr 2009 fragte Charlie Rose Jensen Huang über Nvidia vs. Intel.
Die Chip-Hersteller konkurrierten nicht direkt, aber Jensen sagte, dass GPU vs. CPU ein "Kampf um die Seele" des Rechnens sei und GPUs mit der Zeit "relevanter" werden würden.
Intel war 100 Milliarden Dollar wert und Nvidia lag bei 4 Milliarden Dollar. Heute liegt Intel bei 107 Milliarden Dollar, während Nvidia mit etwa 1 Billion Dollar ~1.000-mal mehr wert ist.
303,28K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten