Lasciami dipingere il quadro. Diciamo che vuoi un umanoide per cucinare una cena deliziosa mentre tu sei seduto sul divano a guardare Netflix. Come funzionerebbe a livello tecnico, dato che l'umanoide richiede diversi cervelli per preparare la tua cena? L'intelligenza del robot non è monolitica, ma è un team di moduli AI che combinano una lenta deliberazione con riflessi rapidi (design Sistema 2 + Sistema 1). Il suo modello di visione-linguaggio-azione (VLA) divide la cognizione in un modulo di ragionamento e una politica di controllo reattivo. Poiché il robot funziona su un'architettura cognitiva multi-cervello, attiverebbe un operatore "chef" dedicato per gestire la tua richiesta, come esaminare la cucina con le sue telecamere, cercare una ricetta e poi dirigere i suoi arti per iniziare a tagliare le verdure. Questi cervelli possono essere suddivisi nei seguenti operatori. Cervello #1: Per cucinare una cena deliziosa, hai bisogno di un pianificatore esecutivo. Interpreta il tuo comando ("prepara la cena") per determinare l'obiettivo (fare la pasta). Utilizzando la comprensione del linguaggio naturale, decide quali sotto-compiti sono necessari (trovare ingredienti, cucinare la pasta, apparecchiare la tavola, ecc.) e quali altri cervelli dovrebbero gestire ciascuno. Coordina il sistema multi-agente: attivando moduli specializzati per visione, conoscenza e movimento. Questo cervello deliberativo (sistema 2) prende decisioni di alto livello, delinea l'approccio e assegna responsabilità prima che inizino i movimenti fisici. Cervello #2: Ora che hai la ricetta, avrai bisogno di occhi robotici e consapevolezza spaziale. Elabora i feed delle telecamere per identificare ingredienti, strumenti e le loro posizioni in cucina. Utilizzando una visione artificiale avanzata, vede il tagliere, le verdure nel frigorifero, il coltello sul piano di lavoro, ecc. Costruisce una mappa 3D dell'ambiente e tiene traccia degli oggetti rilevanti (come dove si trovano il sale o le pentole). Questo cervello percettivo (Sistema 2) funziona più lentamente dei riflessi, ma fornisce un contesto accurato della scena per la pianificazione. Riconoscendo tutti i pezzi coinvolti, educa il robot nel mondo reale. Cervello #3: Questo cervello funge da base di conoscenza e memoria del robot (Sistema 2). Recupera e analizza le informazioni necessarie per il compito, in questo caso, una ricetta adatta e istruzioni di cottura. Potrebbe interrogare un ricettario online o il suo database interno per una ricetta di pasta, quindi interpretare i passaggi (far bollire l'acqua, tritare l'aglio, ecc.). Richiama fatti sulla cucina (come dove sono conservate le spezie) e esperienze di cottura passate. Fondamentalmente, fornisce comprensione semantica e conoscenza del mondo. Poi calcola istruzioni astratte (caramellare le cipolle) in parametri concreti (temperatura, tempi) che il robot può eseguire, assicurandosi che il piano sia in linea con le tue preferenze. Cervello #4: Con l'obiettivo e l'ambiente chiariti, abbiamo elaborato un piano dettagliato. Scompone l'obiettivo di alto livello in azioni ordinate e passaggi condizionali. Pianifica i compiti (a volte in parallelo, come preriscaldare il forno mentre si tagliano le verdure) e stabilisce traguardi (acqua bollita, salsa pronta). Tiene anche traccia dei progressi e può ripianificare al volo se qualcosa cambia (ad esempio, se un ingrediente è mancante). Poi passa questa sequenza di azioni ai cervelli di livello movimento per l'esecuzione. Un altro cervello del Sistema 2. Cervello #5: È tempo di passare dall'architettura del Sistema 2 al Sistema 1, traducendo il piano in movimenti robotici concreti. Per ogni azione (come "camminare verso il frigorifero" o "tagliare le carote"), genera traiettorie applicabili per il corpo e gli arti del robot. Questo modulo gestisce la pianificazione del percorso e la cinematica inversa, calcolando i percorsi e gli angoli delle articolazioni affinché il robot si muova senza collisioni. Di solito applica politiche motorie apprese (come una politica di diffusione trasformativa) per produrre movimenti fluidi per compiti complessi. Se il Cervello 4 dice di recuperare una pentola dal frigorifero, il Cervello 5 capisce come portare il robot lì e come afferrare la pentola. Dove coordina più arti quando necessario (usando entrambe le mani per sollevare una pentola pesante, ad esempio). L'intento di alto livello si traduce in una convergenza di hardware e software in movimento. Cervello #6: Una volta impostato un piano di movimento, è tempo di eseguire. Questo cervello di controllo di basso livello del Sistema 1 guida gli attuatori del robot (motori e articolazioni). Legge continuamente i sensori (angoli delle articolazioni, forza, equilibrio) e invia segnali di controllo per seguire la traiettoria. Utilizzando loop di controllo (controllori PID, controllo predittivo del modello, ecc.) per mantenere la precisione, se il robot inizia a inclinarsi o un coltello devia dal percorso, corregge istantaneamente. Questi sono i riflessi e le abilità motorie fini che operano a velocità millisecondo. Mentre il robot affetta una carota, il Cervello 6 modula la forza e regola l'angolo della lama per ottenere fette uniformi senza scivolare. È come la "memoria muscolare" subconscia del sistema, gestendo automaticamente i dettagli di basso livello. Cervello #7: L'ultimo pezzo si concentra sul miglioramento continuo. Durante e dopo la preparazione della cena, analizza le prestazioni. Ha rovesciato qualcosa? È stato troppo lento a mescolare? Questo modulo utilizza l'apprendimento per rinforzo e la calibrazione automatica per aggiornare i modelli del robot nel tempo. Le competenze fondamentali del robot sono state inizialmente addestrate su enormi dimostrazioni umane e prove ed errori, ma è necessario affinare continuamente queste competenze. Se scopre una tecnica di taglio più efficiente o una presa migliore per la spatola, aggiorna la sua politica affinché la prossima cena vada ancora più liscia. Questo cervello adattivo consente all'umanoide di diventare più abile con l'esperienza. Codec: Operatori in Azione Come si intrecciano le architetture di Codec con questi cervelli? Ogni "cervello" funziona come un modulo Operatore separato nel sistema AI del robot. L'orchestrazione di Fabric di Codec fornisce a ciascun operatore il proprio ambiente sicuro e isolato. Significa che il modulo di visione, il modulo linguistico/logico, il modulo di pianificazione, ecc., funzionano tutti in isolamento ma comunicano attraverso interfacce definite. Se un modulo si blocca o ha errori, non farà crollare l'intero robot, gli altri continueranno a funzionare in sicurezza. Questo design modulare rende anche facile aggiornare o sostituire un cervello senza influenzare il resto e aggiungere nuovi operatori specializzati secondo necessità. Questo approccio degli operatori supporta direttamente il framework multi-cervello. Quando richiedi la cena, il cervello esecutivo del robot (Cervello 1) può attivare un operatore "chef" dedicato a quel compito, mentre altri operatori gestiscono la percezione e il controllo in parallelo. Ogni operatore ha accesso solo alle risorse di cui ha bisogno (ad esempio, l'agente della ricetta potrebbe avere accesso a Internet per recuperare istruzioni, mentre l'agente di controllo interagisce solo con l'hardware), il che migliora la sicurezza. Il design modulare e isolato di Codec è la colla che tiene insieme tutte queste abilità diverse che lavorano insieme, simile ai microservizi nel software, consentendo all'umanoide di gestire in modo affidabile compiti complessi come cucinare la cena da zero. Ecco perché $CODEC sarà l'infrastruttura principale per la Robotica.
Trissy
Trissy23 ago 2025
You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.
8,93K