Anna minun maalata kuva. Oletetaan, että haluat humanoidin valmistavan herkullisen illallisen, kun istut sohvalla ja katsot Netflixiä. Miten tämä toimisi teknisellä tasolla, koska Humanoidi tarvitsee useita aivoja illallisen valmistamiseen? Robotin älykkyys ei ole monoliittinen, vaan tekoälymoduulien ryhmä, jossa yhdistyvät hidas harkinta ja nopeat refleksit (System 2 + System 1 -suunnittelu). Sen visio-kieli-toiminta (VLA) -malli jakaa kognition päättelymoduuliin ja reaktiiviseen kontrollipolitiikkaan. Koska robotti toimii moniaivoisella kognitiivisella arkkitehtuurilla, se pyörittää oman "kokki"-operaattorin käsittelemään pyyntösi, kuten tutkimaan keittiötä kameroillaan, etsimään reseptiä ja ohjaamaan sitten raajojaan aloittamaan vihannesten pilkkomisen. Nämä aivot voidaan jakaa seuraaviin operaattoreihin. Aivot #1: Herkullisen illallisen valmistamiseen tarvitset johtajan. Se tulkitsee käskysi ("valmista illallinen") määrittääkseen tavoitteen (pastan valmistaminen). Luonnollisen kielen ymmärtämisen avulla se päättää, mitä osatehtäviä tarvitaan (ainesosien etsiminen, pastan keittäminen, pöydän kattaminen jne.) ja mitkä muut aivot hoitavat kutakin. Se koordinoi moniagenttijärjestelmää: aktivoi erikoistuneita moduuleja näköä, tietoa ja liikettä varten. Nämä keskustelevat aivot (järjestelmä 2) tekevät ylimmän tason päätöksiä, määrittelevät lähestymistavan ja jakavat vastuut ennen fyysisten liikkeiden alkamista. Aivot #2: Nyt kun sinulla on resepti, tarvitset robottisilmiä ja tilatietoisuutta. Se käsittelee kamerasyötteitä tunnistaakseen ainesosat, työkalut ja niiden sijainnit keittiössä. Kehittyneen konenäön avulla se näkee leikkuulaudan, jääkaapissa olevat vihannekset, tiskillä olevan veitsen jne. Se rakentaa 3D-kartan ympäristöstä ja seuraa asiaankuuluvia kohteita (kuten suolan tai pannujen sijaintia). Nämä havaintoaivot (Järjestelmä 2) toimivat hitaammin kuin refleksit, mutta tarjoavat tarkan kohtauskontekstin suunnittelua varten. Tunnistamalla kaikki mukana olevat osat se kouluttaa robotin todelliseen maailmaan. Aivot #3: Nämä aivot toimivat robotin tietopohjana ja muistina (Järjestelmä 2). Se hakee ja jäsentää tehtävään tarvittavat tiedot, tässä tapauksessa sopivan reseptin ja ruoanlaitto-ohjeet. Se saattaa kysyä online-keittokirjasta tai sen sisäisestä tietokannasta pastareseptiä ja tulkita sitten vaiheet (kiehauta vettä, pilko valkosipulia jne.). Se muistuttaa faktoja keittiöstä (kuten mausteiden säilytyksestä) ja menneistä ruoanlaittokokemuksista. Pohjimmiltaan semanttisen ymmärryksen ja maailmantuntemuksen tarjoaminen. Sitten laskee abstraktit ohjeet (karamellisoida sipulit) konkreettisiksi parametreiksi (lämpötila, ajoitus), jotka robotti voi suorittaa varmistaen, että suunnitelma vastaa mieltymyksiäsi. Aivot #4: Kun tavoite ja ympäristö on selvitetty, olemme laatineet yksityiskohtaisen pelisuunnitelman. Se jakaa korkean tason tavoitteen järjestettyihin toimiin ja ehdollisiin vaiheisiin. Se ajoittaa tehtävät (joskus rinnakkain, kuten esilämmittää uunin vihannesten pilkkomisen aikana) ja asettaa virstanpylväitä (vesi keitetty, kastike valmis). Se myös seuraa edistymistä ja voi suunnitella uudelleen lennossa, jos jokin muuttuu (esimerkiksi jokin ainesosa puuttuu). Sitten se luovuttaa tämän toimintajakson liiketason aivoille suoritettavaksi. Toiset System 2 -aivot. Aivot #5: On aika siirtyä System 2 -arkkitehtuurista System 1:een, jolloin suunnitelma muunnetaan konkreettisiksi robottiliikkeiksi. Jokaiselle toiminnolle (kuten "kävele jääkaapille" tai "pilko porkkanat") se luo soveltuvat liikeradat robotin keholle ja raajoille. Tämä moduuli käsittelee reitin suunnittelua ja käänteistä kinematiikkaa, laskee liitosreitit ja kulmat, jotta robotti liikkuu sujuvasti ilman törmäyksiä. Se soveltaa tyypillisesti opittuja motorisia käytäntöjä (kuten diffuusiomuuntajakäytäntöä) tuottaakseen nestemäisiä liikkeitä monimutkaisiin tehtäviin. Jos Aivot 4 käskee hakemaan kattilan jääkaapista, Aivot 5 keksii, miten robotti saadaan sinne ja miten kattilaan tarttutaan. Missä se koordinoi useita raajoja tarvittaessa (käyttämällä esimerkiksi kahta kättä raskaan ruukun nostamiseen). Korkean tason aikomus muuttuu liikkeessä liikkuvien laitteistojen ja ohjelmistojen lähentymiseksi Aivot #6: Kun liikesuunnitelma on asetettu, on aika toteuttaa. Nämä matalan tason System 1 -ohjausaivot ohjaavat robotin toimilaitteita (moottoreita ja niveliä). Se lukee jatkuvasti antureita (liitoskulmat, voima, tasapaino) ja lähettää ohjaussignaaleja liikeradan seuraamiseksi. Käyttämällä ohjaussilmukoita (PID-ohjaimet, mallin ennakoiva ohjaus jne.) tarkkuuden ylläpitämiseksi, jos robotti alkaa kaatua tai veitsi poikkeaa kurssilta, se korjaa välittömästi. Nämä ovat refleksejä ja hienomotorisia taitoja, jotka toimivat millisekunnin nopeuksilla. Kun robotti viipaloi porkkanaa, Brain 6 moduloi voimaa ja säätää terän kulmaa saadakseen tasaiset viipaleet luistamatta. Se on kuin järjestelmän alitajuinen "lihasmuisti", joka käsittelee matalan tason yksityiskohtia automaattisesti. Aivot #7: Viimeinen osa keskittyy jatkuvaan parantamiseen. Illallisen valmistelun aikana ja sen jälkeen se analysoi suorituskykyä. Läikkyikö siitä mitään? Oliko se liian hidas sekoittamaan? Tämä moduuli käyttää vahvistusoppimista ja itsekalibrointia robotin mallien päivittämiseen ajan myötä. Robotin ydintaitoja harjoiteltiin alun perin massiivisilla ihmisdemonstraatioilla ja yrityksen ja erehdyksen avulla, mutta niitä on jatkuvasti hienosäädettävä. Jos se löytää tehokkaamman kuutiotekniikan tai paremman lastaotteen, se päivittää käytäntönsä niin, että seuraava illallinen sujuu entistä sujuvammin. Nämä mukautuvat aivot antavat humanoidille mahdollisuuden tulla taitavammaksi kokemuksen myötä. Koodekki: Operaattorit toiminnassa Miten Codecin arkkitehtuuri sitoo nämä aivot yhteen? Jokainen "aivo" toimii erillisenä operaattorimoduulina robotin tekoälyjärjestelmässä. Codecin Fabric-orkestrointi tarjoaa jokaiselle operaattorille oman turvallisen, hiekkalaatikkoympäristön. Tämä tarkoittaa, että näkömoduuli, kieli/logiikkamoduuli, suunnittelumoduuli jne. toimivat kaikki eristyksissä, mutta kommunikoivat määriteltyjen rajapintojen kautta. Jos yksi moduuli kaatuu tai siinä on virheitä, se ei kaada koko robottia, muut jatkavat toimintaansa turvallisesti. Tämän modulaarisen rakenteen avulla on myös helppo päivittää tai vaihtaa yksi aivo vaikuttamatta muihin ja lisätä uusia erikoistuneita operaattoreita tarpeen mukaan. Tämä operaattorilähestymistapa tukee suoraan moniaivokehystä. Kun pyydät illallista, robotin toimeenpanevat aivot (aivot 1) voivat käynnistää kyseiseen tehtävään omistautuneen "kokki"-operaattorin, kun taas muut operaattorit hoitavat havainnon ja hallinnan rinnakkain. Kullakin operaattorilla on pääsy vain tarvitsemiinsa resursseihin (esimerkiksi reseptiagentilla voi olla Internet-yhteys ohjeiden hakemiseen, kun taas ohjausagentilla on vain laitteisto), mikä parantaa turvallisuutta. Codecin modulaarinen, hiekkalaatikkomainen muotoilu on liima kaikille näille erilaisille taidoille, jotka toimivat yhdessä, kuten ohjelmistojen mikropalvelut, joiden avulla humanoidi pystyy luotettavasti hoitamaan monimutkaisia tehtäviä, kuten illallisen valmistamisen alusta alkaen. Siksi $CODEC tulee olemaan robotiikan ensisijainen infra.
Trissy
Trissy23.8.2025
You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.
8,94K