絵を描かせてください。 ソファに座ってNetflixを見ている間、ヒューマノイドにおいしい夕食を作ってもらいたいとします。 ヒューマノイドは夕食を作るのに複数の脳を必要とするため、これは技術レベルでどのように機能しますか? ロボットの知能は一枚岩ではなく、ゆっくりとした熟考と速い反射神経を組み合わせた AI モジュールのチームです (システム 2 + システム 1 設計)。 その視覚言語行動(VLA)モデルは、認知を推論モジュールと事後制御ポリシーに分割します。 ロボットはマルチブレイン認知アーキテクチャ上で動作しているため、カメラでキッチンを調査したり、レシピを調べたり、手足に野菜切りを始めるように指示したりするなど、専任の「シェフ」オペレーターを起動してリクエストに対応します。 これらの脳は、次の演算子に分解できます。 脳 #1: おいしい夕食を作るには、エグゼクティブプランナーが必要です。あなたのコマンド (「夕食の準備」) を解釈して、目標 (パスタを作る) を決定します。自然言語理解を使用して、必要なサブタスク (材料を見つける、パスタを調理する、テーブルをセットするなど) と、他のどの脳がそれぞれを処理するかを決定します。 マルチエージェントシステムを調整し、視覚、知識、運動のための特殊なモジュールを活性化します。この熟考的な脳 (システム 2) は、物理的な動きが始まる前に、トップレベルの決定を下し、アプローチをレイアウトし、責任を割り当てます。 脳 #2: レシピができたので、ロボットの目と空間認識が必要です。カメラ フィードを処理して、食材、道具、キッチン内のそれらの位置を識別します。高度なコンピュータービジョンを使用して、まな板、冷蔵庫の野菜、カウンターの上のナイフなどを確認します。 環境の 3D マップを作成し、関連するオブジェクト (塩やフライパンがどこにあるかなど) を追跡します。この知覚脳 (システム 2) は反射神経よりも遅く動作しますが、計画のための正確なシーンコンテキストを提供します。関係するすべての部分を認識することで、現実世界でロボットを教育します。 脳 #3: この脳は、ロボットの知識ベースと記憶として機能します (システム 2)。タスクに必要な情報 (この場合は適切なレシピと調理手順) を取得して解析します。オンライン料理本またはその内部データベースにパスタのレシピを照会し、手順(水を沸騰させる、ニンニクを刻むなど)を解釈する場合があります。 キッチンに関する事実(スパイスが保管されている場所など)や過去の料理体験を思い起こさせます。基本的には、意味理解と世界知識を提供します。次に、抽象的な命令 (タマネギをキャラメル化する) を計算して、ロボットが実行できる具体的なパラメーター (温度、タイミング) に計算し、計画がユーザーの好みに合っていることを確認します。 脳 #4: 目標と環境が明確になった上で、詳細なゲームプランを考案しました。高レベルの目標を順序付けられたアクションと条件付きステップに分割します。タスクをスケジュールし (野菜を刻みながらオーブンを予熱するなど、並行して行うこともあります)、マイルストーン (お湯を沸かし、ソースを準備する) を設定します。 また、進捗状況を追跡し、何かが変更された場合 (たとえば、材料が欠落している場合) にその場で再計画を立てることができます。次に、このアクションシーケンスを動作レベルの頭脳に渡して実行します。別のシステム2の脳。 脳 #5: システム 2 アーキテクチャからシステム 1 に移行し、計画を具体的なロボットの動きに変換する時が来ました。「冷蔵庫まで歩く」や「ニンジンを刻む」など)ごとに、ロボットの体と手足に適用可能な軌道が生成されます。 このモジュールは、パスプランニングとインバースキネマティクスを処理し、ロボットが衝突することなくスムーズに移動できるように、関節の経路と角度を計算します。通常、学習したモーター ポリシー (拡散トランス ポリシーなど) を適用して、複雑なタスクの流体運動を生成します。 ブレイン4が冷蔵庫から鍋を取り出すと言ったら、ブレイン5はロボットをそこに連れて行く方法と鍋をつかむ方法を考え出す。必要に応じて複数の手足を調整する場所(たとえば、両手を使って重い鍋を持ち上げる)。高レベルの意図は、動きのあるハードウェアとソフトウェアの収束に変わります 脳 #6: モーションプランを設定したら、実行します。この低レベルのシステム1制御頭脳は、ロボットのアクチュエーター(モーターと関節)を駆動します。センサー(関節角度、力、バランス)を連続的に読み取り、制御信号を送信して軌道を追う。 制御ループ(PIDコントローラー、モデル予測制御など)を使用して精度を維持すると、ロボットが傾き始めたり、ナイフがコースから外れたりすると、即座に修正されます。これらは、ミリ秒の速度で動作する反射神経と細かい運動能力です。 ロボットがニンジンをスライスすると、Brain 6 は力を調整し、ブレードの角度を調整して、滑らずに均一なスライスを取得します。これはシステムの潜在意識の「筋肉の記憶」のようなもので、低レベルの詳細を自動的に処理します。 脳 #7: 最後の部分は、継続的な改善に焦点を当てることです。夕食の準備中および調理後に、パフォーマンスを分析します。何かこぼれましたか?かき混ぜるのが遅すぎたのでしょうか? このモジュールでは、強化学習と自己キャリブレーションを使用して、ロボットのモデルを時間の経過とともに更新します。ロボットのコアスキルは、当初、大規模な人間のデモンストレーションと試行錯誤でトレーニングされましたが、継続的に微調整する必要があります。 より効率的なダイシング技術やより良いヘラグリップを発見した場合、次の夕食がさらにスムーズになるようにポリシーを更新します。この適応脳により、ヒューマノイドは経験によってより熟練することができます。 コーデック: 動作中のオペレーター コーデックのアーキテクチャは、これらの頭脳をどのように結び付けているのでしょうか?各「頭脳」は、ロボットの AI システム内で個別のオペレーター モジュールとして実行されます。コーデックのファブリックオーケストレーションは、各オペレーターに独自の安全なサンドボックス環境を提供します。 つまり、ビジョンモジュール、言語/ロジックモジュール、計画モジュールなどはすべて独立して実行されますが、定義されたインターフェイスを介して通信します。 1つのモジュールがクラッシュしたりエラーが発生したりしても、ロボット全体がダウンすることはなく、他のモジュールは安全に動作し続けます。また、このモジュラー設計により、残りの頭脳に影響を与えることなく、1つの頭脳を簡単に更新または交換し、必要に応じて新しい専門オペレーターを追加することができます。 この演算子アプローチは、マルチブレインフレームワークを直接サポートします。あなたが夕食をリクエストすると、ロボットのエグゼクティブブレイン(ブレイン1)は、そのタスクに専念する「シェフ」オペレーターをスピンアップし、他のオペレーターは認識と制御を並行して処理します。 各オペレーターは必要なリソースにのみアクセスできるため (たとえば、レシピ エージェントは命令を取得するためにインターネットにアクセスできる場合がありますが、制御エージェントはハードウェアとのみインターフェイスします)、安全性が向上します。 コーデックのモジュール式のサンドボックス設計は、ソフトウェアのマイクロサービスと同様に、これらすべての多様なスキルが連携して連携する接着剤であり、ヒューマノイドが夕食の調理などの複雑なタスクをゼロから確実に処理できるようにします。 これが、$CODECがロボット工学の主要なインフラとなる理由です。
Trissy
Trissy2025年8月23日
You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.
8.93K