DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Déjame pintar el cuadro. Supongamos que quieres que un Humanoide cocine una deliciosa cena mientras tú te sientas en el sofá y miras Netflix. ¿Cómo funcionaría esto a nivel técnico, dado que el Humanoide requiere varios cerebros para preparar tu cena? La inteligencia del robot no es monolítica, sino un equipo de módulos de IA que combinan una deliberación lenta con reflejos rápidos (diseño de Sistema 2 + Sistema 1). Su modelo de visión-lenguaje-acción (VLA) divide la cognición en un módulo de razonamiento y una política de control reactivo. Como el robot opera con una arquitectura cognitiva de múltiples cerebros, activaría un operador “chef” dedicado para manejar tu solicitud, como inspeccionar la cocina con sus cámaras, buscar una receta y luego dirigir sus extremidades para comenzar a picar verduras. Estos cerebros se pueden desglosar en los siguientes operadores. Cerebro #1: Para cocinar una deliciosa cena, necesitas un planificador ejecutivo. Interpreta tu comando (“preparar la cena”) para determinar el objetivo (hacer pasta). Usando comprensión del lenguaje natural, decide qué subtareas son necesarias (encontrar ingredientes, cocinar pasta, poner la mesa, etc.) y qué otros cerebros deben manejar cada una. Coordina el sistema de múltiples agentes: activando módulos especializados para visión, conocimiento y movimiento. Este cerebro deliberativo (sistema 2) toma decisiones de alto nivel, establece el enfoque y asigna responsabilidades antes de que comiencen los movimientos físicos. Cerebro #2: Ahora que tienes la receta, necesitarás algunos ojos robóticos y conciencia espacial. Procesa las imágenes de las cámaras para identificar ingredientes, herramientas y sus ubicaciones en la cocina. Usando visión por computadora avanzada, ve la tabla de cortar, las verduras en la nevera, el cuchillo en la encimera, etc. Construye un mapa 3D del entorno y rastrea objetos relevantes (como dónde están la sal o las sartenes). Este cerebro perceptual (Sistema 2) funciona más lento que los reflejos, pero proporciona un contexto preciso de la escena para la planificación. Al reconocer todas las piezas involucradas, educa al robot en el mundo real. Cerebro #3: Este cerebro actúa como la base de conocimiento y memoria del robot (Sistema 2). Recupera y analiza la información necesaria para la tarea, en este caso, una receta adecuada e instrucciones de cocina. Podría consultar un libro de cocina en línea o su base de datos interna para una receta de pasta, luego interpretar los pasos (hervir agua, picar ajo, etc.). Recuerda hechos sobre la cocina (como dónde se guardan las especias) y experiencias pasadas de cocina. Esencialmente, proporciona comprensión semántica y conocimiento del mundo. Luego computa instrucciones abstractas (caramelizar las cebollas) en parámetros concretos (temperatura, tiempo) que el robot puede ejecutar, asegurando que el plan se alinee con tus preferencias. Cerebro #4: Con el objetivo y el entorno aclarados, hemos ideado un plan de juego detallado. Descompone el objetivo de alto nivel en acciones ordenadas y pasos condicionales. Programa tareas (a veces en paralelo, como precalentar el horno mientras pica verduras) y establece hitos (agua hervida, salsa lista). También rastrea el progreso y puede replantear sobre la marcha si algo cambia (digamos que falta un ingrediente). Luego entrega esta secuencia de acciones a los cerebros de nivel de movimiento para su ejecución. Otro cerebro del Sistema 2. Cerebro #5: Es hora de pasar de la arquitectura del Sistema 2 al Sistema 1, traduciendo el plan en movimientos concretos del robot. Para cada acción (como “caminar hacia la nevera” o “picar zanahorias”), genera trayectorias aplicables para el cuerpo y las extremidades del robot. Este módulo maneja la planificación de rutas y la cinemática inversa, calculando caminos y ángulos de las articulaciones para que el robot se mueva suavemente sin colisiones. Típicamente aplica políticas motoras aprendidas (como una política de transformador de difusión) para producir movimientos fluidos para tareas complejas. Si el Cerebro 4 dice que recupere una olla de la nevera, el Cerebro 5 determina cómo llevar al robot allí y cómo agarrar la olla. Donde coordina múltiples extremidades cuando es necesario (usando dos manos para levantar una olla pesada, por ejemplo). La intención de alto nivel se convierte en una convergencia de hardware y software en movimiento. Cerebro #6: Una vez que se establece un plan de movimiento, es hora de ejecutar. Este cerebro de control de bajo nivel del Sistema 1 impulsa los actuadores del robot (motores y articulaciones). Lee continuamente los sensores (ángulos de las articulaciones, fuerza, equilibrio) y envía señales de control para seguir la trayectoria. Usando bucles de control (controladores PID, control predictivo de modelos, etc.) para mantener la precisión, si el robot comienza a inclinarse o un cuchillo se desvía, corrige instantáneamente. Estos son los reflejos y habilidades motoras finas que operan a velocidades de milisegundos. Mientras el robot corta una zanahoria, el Cerebro 6 modula la fuerza y ajusta el ángulo de la cuchilla para obtener rebanadas uniformes sin resbalar. Es como la “memoria muscular” subconsciente del sistema, manejando automáticamente los detalles de bajo nivel. Cerebro #7: La pieza final se centra en la mejora continua. Durante y después de la preparación de la cena, analiza el rendimiento. ¿Derramó algo? ¿Fue demasiado lento al revolver? Este módulo utiliza aprendizaje por refuerzo y auto-calibración para actualizar los modelos del robot con el tiempo. Las habilidades básicas del robot se entrenaron inicialmente en demostraciones humanas masivas y prueba y error, pero necesitas estar afinándolas continuamente. Si descubre una técnica de picado más eficiente o un mejor agarre de espátula, actualiza su política para que la próxima cena sea aún más fluida. Este cerebro adaptativo permite que el humanoide se vuelva más hábil con la experiencia. Codec: Operadores en Acción ¿Cómo une la arquitectura de Codec estos cerebros? Cada “cerebro” funciona como un módulo de operador separado en el sistema de IA del robot. La orquestación de Fabric de Codec proporciona a cada operador su propio entorno seguro y aislado. Esto significa que el módulo de visión, el módulo de lenguaje/lógica, el módulo de planificación, etc., funcionan todos en aislamiento, pero se comunican a través de interfaces definidas. Si un módulo falla o tiene errores, no derribará todo el robot, los otros seguirán funcionando de manera segura. Este diseño modular también facilita la actualización o el intercambio de un cerebro sin afectar al resto, y la adición de nuevos operadores especializados según sea necesario. Este enfoque de operador apoya directamente el marco de múltiples cerebros. Cuando solicitas la cena, el cerebro ejecutivo del robot (Cerebro 1) puede activar un operador “chef” dedicado a esa tarea, mientras que otros operadores manejan la percepción y el control en paralelo. Cada operador solo tiene acceso a los recursos que necesita (por ejemplo, el agente de recetas podría tener acceso a Internet para obtener instrucciones, mientras que el agente de control solo se comunica con el hardware), lo que mejora la seguridad. El diseño modular y aislado de Codec es el pegamento que une todas estas diversas habilidades para trabajar juntas, similar a los microservicios en software, permitiendo que el humanoide maneje de manera confiable tareas complejas como cocinar la cena desde cero. Por eso $CODEC será la infraestructura principal para la Robótica.

You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.

8,94K

Parte superior

Clasificación

Favoritos