Позвольте мне нарисовать картину. Предположим, вы хотите, чтобы гуманоид приготовил вкусный ужин, пока вы сидите на диване и смотрите Netflix. Как это будет работать на техническом уровне, если гуманоид требует несколько "мозгов", чтобы приготовить ваш ужин? Интеллект робота не является монолитным, а представляет собой команду модулей ИИ, объединяющих медленное обдумывание с быстрыми рефлексами (дизайн Системы 2 + Системы 1). Его модель "зрение-язык-действие" (VLA) разделяет когницию на модуль рассуждений и реактивную контрольную политику. Поскольку робот работает на многомозговой когнитивной архитектуре, он запустит специального оператора "шефа", чтобы обработать ваш запрос, например, осмотреть кухню с помощью своих камер, найти рецепт, а затем направить свои конечности, чтобы начать нарезать овощи. Эти "мозги" можно разбить на следующие операторы. Мозг #1: Чтобы приготовить вкусный ужин, вам нужен исполнительный планировщик. Он интерпретирует вашу команду ("приготовить ужин"), чтобы определить цель (приготовить пасту). Используя понимание естественного языка, он решает, какие подзадачи необходимы (найти ингредиенты, приготовить пасту, накрыть на стол и т. д.) и какие другие "мозги" должны обрабатывать каждую из них. Он координирует многопользовательскую систему: активирует специализированные модули для зрения, знаний и движения. Этот обдумывающий мозг (система 2) принимает решения на высшем уровне, разрабатывает подход и распределяет обязанности до начала любых физических движений. Мозг #2: Теперь, когда у вас есть рецепт, вам понадобятся "глазки" робота и пространственное восприятие. Он обрабатывает видеопотоки с камер, чтобы идентифицировать ингредиенты, инструменты и их местоположение на кухне. Используя продвинутую компьютерную визуализацию, он видит разделочную доску, овощи в холодильнике, нож на столе и т. д. Он строит 3D-карту окружающей среды и отслеживает соответствующие объекты (например, где находятся соль или сковородки). Этот перцептивный мозг (Система 2) работает медленнее, чем рефлексы, но предоставляет точный контекст сцены для планирования. Признавая все вовлеченные элементы, он обучает робота в реальном мире. Мозг #3: Этот мозг действует как база знаний и память робота (Система 2). Он извлекает и анализирует информацию, необходимую для задачи, в данном случае, подходящий рецепт и инструкции по приготовлению. Он может запросить онлайн-книгу рецептов или свою внутреннюю базу данных для рецепта пасты, а затем интерпретировать шаги (вскипятить воду, нарезать чеснок и т. д.). Он вспоминает факты о кухне (например, где хранятся специи) и прошлые кулинарные опыты. По сути, он предоставляет семантическое понимание и знания о мире. Затем он вычисляет абстрактные инструкции (карамелизовать лук) в конкретные параметры (температура, время), которые робот может выполнить, обеспечивая соответствие плана вашим предпочтениям. Мозг #4: С учетом цели и окружающей среды мы разработали детальный план действий. Он разбивает высокоуровневую цель на упорядоченные действия и условные шаги. Он планирует задачи (иногда параллельно, например, разогревая духовку, пока нарезает овощи) и устанавливает контрольные точки (вода закипела, соус готов). Он также отслеживает прогресс и может перепланировать на лету, если что-то изменится (например, если отсутствует ингредиент). Затем он передает эту последовательность действий мозгам уровня движения для выполнения. Еще один мозг Системы 2. Мозг #5: Время перейти от архитектуры Системы 2 к Системе 1, переводя план в конкретные движения робота. Для каждого действия (например, "идти к холодильнику" или "нарезать морковь") он генерирует применимые траектории для тела и конечностей робота. Этот модуль обрабатывает планирование пути и обратную кинематику, вычисляя пути и углы суставов, чтобы робот двигался плавно, без столкновений. Обычно он применяет изученные моторные политики (например, политику диффузионного трансформера), чтобы производить плавные движения для сложных задач. Если Мозг 4 говорит, чтобы достать кастрюлю из холодильника, Мозг 5 определяет, как добраться до кастрюли и как ее схватить. Он координирует несколько конечностей, когда это необходимо (например, используя обе руки, чтобы поднять тяжелую кастрюлю). Высокий уровень намерения превращается в слияние аппаратного и программного обеспечения, движущегося в движении. Мозг #6: Как только план движения установлен, пора выполнять. Этот низкоуровневый мозг Системы 1 управляет актуаторами робота (моторами и суставами). Он постоянно считывает данные с датчиков (углы суставов, сила, баланс) и отправляет управляющие сигналы для следования траектории. Используя контрольные петли (PID-контроллеры, предсказательное управление и т. д.) для поддержания точности, если робот начинает наклоняться или нож отклоняется от курса, он мгновенно корректирует. Это рефлексы и тонкие моторные навыки, работающие на миллисекундных скоростях. Когда робот нарезает морковь, Мозг 6 модулирует силу и регулирует угол лезвия, чтобы получить равномерные ломтики без соскальзывания. Это как подсознательная "мускульная память" системы, автоматически обрабатывающая низкоуровневые детали. Мозг #7: Последний элемент сосредоточен на постоянном улучшении. Во время и после подготовки ужина он анализирует производительность. Разлил ли он что-нибудь? Был ли он слишком медленным при помешивании? Этот модуль использует обучение с подкреплением и самокалибровку, чтобы обновлять модели робота со временем. Основные навыки робота изначально обучались на огромных демонстрациях людей и методом проб и ошибок, но вам нужно постоянно их уточнять. Если он обнаружит более эффективную технику нарезки или лучший захват лопатки, он обновляет свою политику, чтобы следующий ужин прошел еще более гладко. Этот адаптивный мозг позволяет гуманоиду становиться более искусным с опытом. Codec: Операторы в действии Как архитектура Codec связывает эти "мозги" вместе? Каждый "мозг" работает как отдельный модуль оператора в системе ИИ робота. Оркестрация Fabric от Codec предоставляет каждому оператору свою собственную безопасную, изолированную среду. Это означает, что модуль зрения, модуль языка/логики, модуль планирования и т. д. все работают в изоляции, но общаются через определенные интерфейсы. Если один модуль выходит из строя или имеет ошибки, это не повлияет на весь робот, остальные продолжают работать безопасно. Этот модульный дизайн также упрощает обновление или замену одного мозга без влияния на остальные и добавление новых специализированных операторов по мере необходимости. Этот подход оператора напрямую поддерживает многомозговую структуру. Когда вы запрашиваете ужин, исполнительный мозг робота (Мозг 1) может запустить оператора "шефа", посвященного этой задаче, в то время как другие операторы обрабатывают восприятие и контроль параллельно. Каждый оператор имеет доступ только к ресурсам, которые ему нужны (например, агент рецептов может иметь доступ в интернет для получения инструкций, в то время как агент управления взаимодействует только с аппаратным обеспечением), что повышает безопасность. Модульный, изолированный дизайн Codec является связующим звеном для всех этих разнообразных навыков, работающих вместе, подобно микросервисам в программном обеспечении, позволяя гуманоиду надежно справляться со сложными задачами, такими как приготовление ужина с нуля. Вот почему $CODEC станет основной инфраструктурой для робототехники.
Trissy
Trissy23 авг. 2025 г.
You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.
8,94K