DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Izinkan saya melukiskan gambarannya. Katakanlah Anda ingin Humanoid memasak makan malam yang lezat saat Anda duduk di sofa dan menonton Netflix. Bagaimana ini akan bekerja pada tingkat teknis karena Humanoid membutuhkan beberapa otak untuk membuat makan malam Anda? Kecerdasan robot tidak monolitik, tetapi tim modul AI yang menggabungkan musyawarah lambat dengan refleks cepat (desain Sistem 2 + Sistem 1). Model vision-language-action (VLA) membagi kognisi menjadi modul penalaran dan kebijakan kontrol reaktif. Karena robot berjalan pada arsitektur kognitif multi otak, ia akan memutar operator "koki" khusus untuk menangani permintaan Anda, seperti mensurvei dapur dengan kameranya, mencari resep, lalu mengarahkan anggota tubuhnya untuk mulai memotong sayuran. Otak-otak ini dapat dipecah menjadi operator berikut. Otak #1: Untuk memasak makan malam yang lezat, Anda memerlukan perencana eksekutif. Ini menafsirkan perintah Anda ("menyiapkan makan malam") untuk menentukan tujuan (membuat pasta). Dengan menggunakan pemahaman bahasa alami, ia memutuskan sub tugas apa yang diperlukan (menemukan bahan, memasak pasta, mengatur meja, dll) dan otak lain mana yang harus menangani masing-masing. Ini mengoordinasikan sistem multi agen: mengaktifkan modul khusus untuk penglihatan, pengetahuan, dan gerakan. Otak deliberatif ini (sistem 2) membuat keputusan tingkat atas, menjabarkan pendekatan, dan mengalokasikan tanggung jawab sebelum gerakan fisik dimulai. Otak #2: Sekarang setelah Anda memiliki resepnya, Anda memerlukan mata robot dan kesadaran spasial. Ini memproses umpan kamera untuk mengidentifikasi bahan, alat, dan lokasinya di dapur. Menggunakan visi komputer canggih, ia melihat talenan, sayuran di lemari es, pisau di meja, dll. Ini membangun peta 3D lingkungan dan melacak objek yang relevan (seperti di mana garam atau wajan berada). Otak persepsi ini (Sistem 2) berjalan lebih lambat daripada refleks, tetapi memberikan konteks adegan yang akurat untuk perencanaan. Dengan mengenali semua bagian yang terlibat, itu mendidik robot di dunia nyata. Otak #3: Otak ini bertindak sebagai basis pengetahuan dan memori robot (Sistem 2). Ini mengambil dan mengurai informasi yang diperlukan untuk tugas tersebut, dalam hal ini, resep yang sesuai dan instruksi memasak. Mungkin menanyakan buku masak online atau database internalnya untuk resep pasta, lalu menafsirkan langkah-langkahnya (merebus air, memotong bawang putih, dll). Ini mengingatkan fakta tentang dapur (seperti di mana rempah-rempah disimpan) dan pengalaman memasak masa lalu. Pada dasarnya, memberikan pemahaman semantik dan pengetahuan dunia. Kemudian menghitung instruksi abstrak (karamelisasi bawang) menjadi parameter konkret (suhu, waktu) yang dapat dijalankan robot, memastikan rencana tersebut selaras dengan preferensi Anda. Otak #4: Dengan tujuan dan lingkungan yang diklarifikasi, kami telah menyusun rencana permainan yang terperinci. Ini memecah tujuan tingkat tinggi menjadi tindakan yang teratur dan langkah bersyarat. Ini menjadwalkan tugas (terkadang secara paralel, seperti memanaskan oven saat memotong sayuran) dan menetapkan tonggak (air matang, saus siap). Ini juga melacak kemajuan dan dapat merencanakan ulang dengan cepat jika ada sesuatu yang berubah (katakanlah bahan hilang). Kemudian menyerahkan urutan aksi ini ke otak tingkat gerak untuk dieksekusi. Otak Sistem 2 lainnya. Otak #5: Saatnya beralih dari arsitektur Sistem 2 dan pindah ke Sistem 1, menerjemahkan rencana ke dalam gerakan robot beton. Untuk setiap tindakan (seperti "berjalan ke lemari es" atau "potong wortel"), ini menghasilkan lintasan yang berlaku untuk tubuh dan anggota tubuh robot. Modul ini menangani perencanaan jalur dan kinematika terbalik, menghitung jalur dan sudut sambungan sehingga robot bergerak dengan lancar tanpa tabrakan. Ini biasanya menerapkan kebijakan motorik yang dipelajari (seperti kebijakan transformator difusi) untuk menghasilkan gerakan fluida untuk tugas-tugas yang kompleks. Jika Brain 4 mengatakan untuk mengambil panci dari lemari es, Brain 5 mencari tahu cara membawa robot ke sana dan bagaimana menggenggam pot. Di mana ia mengkoordinasikan beberapa anggota badan saat dibutuhkan (menggunakan dua tangan untuk mengangkat panci yang berat misalnya). Niat tingkat tinggi berubah menjadi konvergensi perangkat keras dan perangkat lunak yang bergerak bergerak Otak #6: Setelah rencana gerak ditetapkan, saatnya untuk melaksanakannya. Otak kontrol Sistem 1 tingkat rendah ini menggerakkan aktuator robot (motor dan sambungan). Ini terus membaca sensor (sudut sendi, gaya, keseimbangan) dan mengirimkan sinyal kontrol untuk mengikuti lintasan. Menggunakan loop kontrol (pengontrol PID, kontrol prediktif model, dll) untuk menjaga presisi, jika robot mulai terbalik atau pisau menyimpang dari jalur, itu langsung terkoreksi. Ini adalah refleks dan keterampilan motorik halus yang beroperasi pada kecepatan milidetik. Saat robot mengiris wortel, Brain 6 memodulasi gaya dan menyesuaikan sudut bilah untuk mendapatkan irisan yang seragam tanpa tergelincir. Ini seperti "memori otot" bawah sadar dari sistem, menangani detail tingkat rendah secara otomatis. Otak #7: Bagian terakhir adalah berfokus pada perbaikan berkelanjutan. Selama dan setelah persiapan makan malam, ini menganalisis kinerja. Apakah itu menumpahkan sesuatu? Apakah terlalu lambat dalam mengaduk? Modul ini menggunakan pembelajaran penguatan dan kalibrasi mandiri untuk memperbarui model robot dari waktu ke waktu. Keterampilan inti robot awalnya dilatih pada demonstrasi manusia besar-besaran dan coba-coba, tetapi Anda harus terus menyempurnakannya. Jika menemukan teknik potong dadu yang lebih efisien atau pegangan spatula yang lebih baik, ia memperbarui kebijakannya sehingga makan malam berikutnya berjalan lebih lancar. Otak adaptif ini memungkinkan humanoid menjadi lebih terampil dengan pengalaman. Codec: Operator Beraksi Bagaimana arsitektur Codec mengikat otak-otak ini bersama-sama? Setiap "otak" berjalan sebagai modul Operator terpisah dalam sistem AI robot. Orkestrasi Fabric Codec menyediakan setiap operator dengan lingkungan kotak pasir yang aman. Artinya, modul visi, modul bahasa/logika, modul perencanaan, dll, semuanya berjalan secara terpisah namun berkomunikasi melalui antarmuka yang ditentukan. Jika satu modul mogok atau mengalami kesalahan, itu tidak akan menjatuhkan seluruh robot, yang lain tetap berjalan dengan aman. Desain modular ini juga memudahkan untuk memperbarui atau menukar satu otak tanpa memengaruhi sisanya, dan untuk menambahkan operator khusus baru sesuai kebutuhan. Pendekatan operator ini secara langsung mendukung kerangka kerja multi otak. Saat Anda meminta makan malam, otak eksekutif robot (Otak 1) dapat memutar operator "koki" yang didedikasikan untuk tugas itu, sementara operator lain menangani persepsi dan kontrol secara paralel. Setiap operator hanya memiliki akses ke sumber daya yang dibutuhkannya (misalnya agen resep mungkin memiliki akses internet untuk mengambil instruksi, sedangkan agen kontrol hanya berinteraksi dengan perangkat keras), yang meningkatkan keamanan. Desain modular codec yang dilapisi pasir adalah perekat untuk semua keterampilan yang beragam ini bekerja sama, mirip dengan layanan mikro dalam perangkat lunak, memungkinkan humanoid untuk menangani tugas-tugas kompleks seperti memasak makan malam dari awal dengan andal. Inilah sebabnya mengapa $CODEC akan menjadi infra utama untuk Robotika.

You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.

8,93K

Teratas

Peringkat

Favorit