Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nils Pihl (broodsugar.eth)
Memetisk ingeniør og cyberdelisk transhumanist. Bygg @AukiNetwork med @AukiLabs, transformer detaljhandel med @CactusXR
Felles persepsjon og romfølelse er det som vil fikse dette.

Massimo16 timer siden
To like smarte Amazon-roboter
821
Nils Pihl (broodsugar.eth) lagt ut på nytt
Episk visjon for romlig posisjonering, hvis du er en Augmented Reality-utvikler, se denne, TO ganger. Ikke for teknologisk, det handler om visjonen om hvordan appene våre *skal fungere. Du trenger ikke lenger å starte brukeren fra bunnen av, alle 3D-ressurser forblir der de slapp sist, og smelter dem sammen til kjøttrommet.
625
Nils Pihl (broodsugar.eth) lagt ut på nytt
Jeg har hørt dette mye i det siste: "Vi trente roboten vår på ett objekt, og det generaliserte til et nytt objekt - disse nye VLA-modellene er sprø!"
La oss snakke om hva som faktisk skjer i den «A»-delen (Action) av VLA-modellen din.
Visjons- og språkkomponentene? De er utrolige. De er forhåndsopplært på data i internettskala, og forstår objekter, romlige relasjoner og oppgaveinstruksjoner bedre enn noensinne.
Men handlingskomponenten? Det lærer du fortsatt fra bunnen av på dine spesifikke robotdemonstrasjoner.
Her er virkeligheten: VLA-modellen din har internettskala forståelse av hvordan en skrutrekker ser ut og hva "stram skruen" betyr. Men det faktiske motoriske mønsteret for å "rotere håndleddet mens du bruker trykk nedover"? Det kommer fra dine 500 robotdemoer.
Hva dette betyr for "generalisering":
• Synsgeneralisering: Gjenkjenner nye objekter umiddelbart (takket være forhåndsopplæring)
• Språkgeneralisering: Forstår nye oppgaveinstruksjoner (takket være forhåndsopplæring)
• Handlingsgeneralisering: Fortsatt begrenset til motoriske mønstre sett under robottrening
Be den samme roboten om å "skru av flaskekorken", og den mislykkes fordi:
• Visjon: Gjenkjenner flaske og kork
• Språk: Forstår "skru av"
• Handling: Har aldri lært motormønsteret "vri mens du trekker"
Den harde sannheten om VLA-modeller:
«VL» gir deg en utrolig nullskuddsforståelse. "A" krever fortsatt oppgavespesifikke demonstrasjoner.
Vi har knekt persepsjons- og resonnementproblemet. Vi har ikke knekt problemet med motorisk generalisering.
33,66K
Nils Pihl (broodsugar.eth) lagt ut på nytt
Vi bygger et nytt internett for robotikk og XR, for å gjøre den fysiske verden tilgjengelig for AI.
I årets State of the Auki Network-video fremhever vi noen av de fantastiske tingene som allerede bygges på det desentraliserte maskinpersepsjonsnettverket:
6,1K
Nils Pihl (broodsugar.eth) lagt ut på nytt
I 2009 spurte Charlie Rose Jensen Huang om Nvidia vs. Intel.
Brikkeprodusentene konkurrerte ikke direkte, men Jensen sa at GPU vs. CPU var en "kamp om sjelen" til databehandling og GPUer ville være "mer relevante" med tiden.
Intel var verdt 100 milliarder dollar og Nvidia var på 4 milliarder dollar. I dag er Intel på 107 milliarder dollar mens Nvidia er verdt ~1,000 ganger mer til 4,4 billioner dollar.
303,29K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til