Дозвольте мені намалювати картину. Скажімо, ви хочете, щоб гуманоїд приготував смачну вечерю, поки ви сидите на дивані та дивитеся Netflix. Як це працюватиме на технічному рівні, адже Гуманоїду потрібно кілька мізків, щоб приготувати вашу вечерю? Інтелект робота не монолітний, а команда модулів штучного інтелекту, що поєднують повільне обговорення зі швидкими рефлексами (дизайн Системи 2 + Системи 1). Його модель «бачення-мова-дія» (VLA) розділяє пізнання на модуль міркування та політику реактивного управління. Оскільки робот працює на когнітивній архітектурі з кількома мозками, він запустить спеціального оператора-«шеф-кухаря», який обробить ваш запит, наприклад, огляне кухню за допомогою камер, знайде рецепт, а потім спрямує свої кінцівки на початок подрібнення овочів. Цей мозок можна розбити на наступні оператори. Мозок #1: Щоб приготувати смачну вечерю, потрібен виконавчий планувальник. Він тлумачить вашу команду («приготувати вечерю») для визначення мети (зробити макарони). Використовуючи розуміння природної мови, він вирішує, які підзавдання потрібні (знайти інгредієнти, приготувати макарони, накрити стіл тощо) і який інший мозок повинен виконувати кожне з них. Він координує роботу мультиагентної системи: активує спеціалізовані модулі для зору, знань і руху. Цей дорадчий мозок (система 2) приймає рішення на найвищому рівні, викладає підхід і розподіляє обов'язки перед початком будь-яких фізичних рухів. Мозок #2: Тепер, коли у вас є рецепт, вам знадобляться очі робота та просторова орієнтація. Він обробляє потоки з камери, щоб визначити інгредієнти, інструменти та їх розташування на кухні. Використовуючи вдосконалений комп'ютерний зір, він бачить обробну дошку, овочі в холодильнику, ніж на столі тощо. Він створює 3D-карту навколишнього середовища та відстежує відповідні об'єкти (наприклад, де знаходиться сіль або сковорідки). Цей перцептивний мозок (Система 2) працює повільніше, ніж рефлекси, але забезпечує точний контекст сцени для планування. Розпізнаючи всі задіяні частини, він навчає робота в реальному світі. Мозок #3: Цей мозок діє як база знань і пам'ять робота (Система 2). Він витягує та аналізує інформацію, необхідну для виконання завдання, в даному випадку відповідний рецепт та інструкцію з приготування. Він може зробити запит до онлайн-кулінарної книги або внутрішньої бази даних за рецептом пасти, а потім інтерпретувати кроки (закип'ятити воду, подрібнити часник тощо). У ньому згадуються факти про кухню (наприклад, де зберігаються спеції) і минулий кулінарний досвід. По суті, забезпечення семантичного розуміння та пізнання світу. Потім обчислює абстрактні інструкції (карамелізуйте цибулю) у конкретні параметри (температура, час), які робот може виконати, гарантуючи, що план відповідає вашим уподобанням. Мозок #4: З'ясувавши мету та оточення, ми розробили детальний план гри. Він розбиває мету високого рівня на впорядковані дії та умовні кроки. Він планує завдання (іноді паралельно, наприклад, розігрівати духовку під час нарізання овочів) і встановлює етапи (вода кип'ятиться, соус готовий). Він також відстежує прогрес і може змінювати планування на льоту, якщо щось змінюється (скажімо, відсутній якийсь інгредієнт). Потім він передає цю послідовність дій на рівень руху мозку для виконання. Ще одна Система 2 мозок. Мозок #5: Час переходити від архітектури Системи 2 до переходу до Системи 1, переводячи задум у конкретні рухи робота. Для кожної дії (наприклад, «йти до холодильника» або «нарізати моркву») він генерує відповідні траєкторії для тіла та кінцівок робота. Цей модуль обробляє планування шляху та обернену кінематику, обчислюючи шляхи з'єднань і кути, щоб робот рухався плавно без зіткнень. Як правило, він застосовує вивчені моторні політики (наприклад, політику дифузійного трансформатора) для створення рухів рідини для складних завдань. Якщо Brain 4 каже дістати каструлю з холодильника, Brain 5 з'ясовує, як доставити робота туди і як схопити горщик. Де він координує кілька кінцівок, коли це необхідно (використовуючи дві руки для підняття важкого горщика, наприклад). Інтенція високого рівня перетворюється на зближення апаратних і програмних засобів, що рухаються в русі Мозок #6: Після того, як план руху встановлений, настав час його виконання. Цей низькорівневий керуючий мозок Системи 1 приводить в рух виконавчі механізми робота (двигуни та суглоби). Він безперервно зчитує датчики (кути з'єднання, сила, баланс) і посилає керуючі сигнали для слідування за траєкторією. Використовуючи контури керування (PID-контролери, прогнозне керування моделлю тощо) для збереження точності, якщо робот починає перекидатися або ніж відхиляється від курсу, він миттєво виправляється. Це рефлекси і дрібна моторика, що працюють на мілісекундних швидкостях. Коли робот нарізає моркву, Brain 6 модулює силу та регулює кут нахилу леза, щоб отримати рівномірні скибочки без ковзання. Це схоже на підсвідому «м'язову пам'ять» системи, яка автоматично обробляє низькорівневі деталі. Мозок #7: Заключна частина зосереджена на постійному вдосконаленні. Під час і після приготування вечері він аналізує продуктивність. Чи не розлив він щось? Чи не занадто повільно він перемішував? Цей модуль використовує навчання з підкріпленням і самокалібрування для оновлення моделей робота з часом. Основні навички робота спочатку тренувалися на масових демонстраціях на людях і методом проб і помилок, але вам потрібно постійно вдосконалювати їх. Якщо він виявляє більш ефективну техніку нарізання кубиками або кращий хват лопаткою, він оновлює свою політику, щоб наступна вечеря пройшла ще гладкіше. Цей адаптивний мозок дозволяє гуманоїду з досвідом ставати більш вправним. Codec: оператори в дії Як архітектура Codec пов'язує ці мізки разом? Кожен «мозок» працює як окремий модуль оператора в системі штучного інтелекту робота. Оркестрація Fabric від Codec надає кожному оператору власне безпечне середовище в пісочниці. Це означає, що модуль vision, модуль мови/логіки, модуль планування тощо працюють ізольовано, але спілкуються через визначені інтерфейси. Якщо один модуль виходить з ладу або має помилки, це не виведе з ладу всього робота, інші продовжують працювати безпечно. Ця модульна конструкція також дозволяє легко оновлювати або замінювати один мозок, не впливаючи на інші, а також додавати нових спеціалізованих операторів за потреби. Цей операторський підхід безпосередньо підтримує структуру мультимозку. Коли ви замовляєте вечерю, виконавчий мозок робота (Brain 1) може запустити оператора «шеф-кухаря», присвяченого цьому завданню, в той час як інші оператори займаються сприйняттям і контролем паралельно. Кожен оператор має доступ лише до потрібних йому ресурсів (наприклад, агент рецептів може мати доступ до інтернету для отримання інструкцій, тоді як агент керування взаємодіє лише з апаратним забезпеченням), що підвищує безпеку. Модульний дизайн Codec у вигляді пісочниці є сполучною ланкою для всіх цих різноманітних навичок, які працюють разом, подібно до мікросервісів у програмному забезпеченні, що дозволяє гуманоїду надійно справлятися зі складними завданнями, такими як приготування вечері з нуля. Ось чому $CODEC буде основною інфраструктурою для робототехніки.
Trissy
Trissy23 серп. 2025 р.
You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.
8,93K