Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Hãy để tôi vẽ nên bức tranh. Giả sử bạn muốn một người máy hình người nấu một bữa tối ngon miệng trong khi bạn ngồi trên ghế sofa và xem Netflix. Điều này sẽ hoạt động như thế nào ở cấp độ kỹ thuật khi người máy cần nhiều bộ não để làm bữa tối cho bạn? Trí tuệ của robot không phải là đơn nhất, mà là một đội ngũ các mô-đun AI kết hợp giữa sự suy nghĩ chậm rãi và phản xạ nhanh (thiết kế Hệ thống 2 + Hệ thống 1). Mô hình thị giác-ngôn ngữ-hành động (VLA) của nó chia nhận thức thành một mô-đun lý luận và một chính sách điều khiển phản ứng. Khi robot hoạt động trên một kiến trúc nhận thức đa bộ não, nó sẽ khởi động một “đầu bếp” điều hành chuyên dụng để xử lý yêu cầu của bạn, chẳng hạn như khảo sát bếp với các camera của nó, tìm kiếm một công thức, sau đó chỉ đạo các chi của nó bắt đầu thái rau. Những bộ não này có thể được chia thành các điều hành viên sau đây. Bộ não #1: Để nấu một bữa tối ngon miệng, bạn cần một nhà lập kế hoạch điều hành. Nó diễn giải lệnh của bạn (“chuẩn bị bữa tối”) để xác định mục tiêu (làm mì). Sử dụng hiểu biết ngôn ngữ tự nhiên, nó quyết định các nhiệm vụ phụ cần thiết (tìm nguyên liệu, nấu mì, dọn bàn, v.v.) và bộ não nào khác nên xử lý từng nhiệm vụ. Nó phối hợp hệ thống đa tác nhân: kích hoạt các mô-đun chuyên biệt cho thị giác, kiến thức và chuyển động. Bộ não suy nghĩ này (hệ thống 2) đưa ra các quyết định cấp cao, lập kế hoạch tiếp cận và phân bổ trách nhiệm trước khi bất kỳ chuyển động vật lý nào bắt đầu. Bộ não #2: Bây giờ bạn đã có công thức, bạn sẽ cần một số mắt robot và nhận thức không gian. Nó xử lý các luồng camera để xác định nguyên liệu, công cụ và vị trí của chúng trong bếp. Sử dụng thị giác máy tính tiên tiến, nó nhìn thấy thớt, rau trong tủ lạnh, dao trên bàn, v.v. Nó xây dựng một bản đồ 3D của môi trường và theo dõi các đối tượng liên quan (như nơi muối hoặc chảo). Bộ não cảm nhận này (Hệ thống 2) hoạt động chậm hơn phản xạ, nhưng cung cấp bối cảnh chính xác cho việc lập kế hoạch. Bằng cách nhận diện tất cả các phần liên quan, nó giáo dục robot trong thế giới thực. Bộ não #3: Bộ não này hoạt động như cơ sở kiến thức và trí nhớ của robot (Hệ thống 2). Nó truy xuất và phân tích thông tin cần thiết cho nhiệm vụ, trong trường hợp này, một công thức và hướng dẫn nấu ăn phù hợp. Nó có thể truy vấn một cuốn sách nấu ăn trực tuyến hoặc cơ sở dữ liệu nội bộ của nó để tìm công thức mì, sau đó diễn giải các bước (đun nước, thái tỏi, v.v.). Nó nhớ các thông tin về bếp (như nơi để gia vị) và các kinh nghiệm nấu ăn trước đó. Về cơ bản, cung cấp sự hiểu biết ngữ nghĩa và kiến thức thế giới. Sau đó, nó tính toán các hướng dẫn trừu tượng (caramelize hành) thành các tham số cụ thể (nhiệt độ, thời gian) mà robot có thể thực hiện, đảm bảo kế hoạch phù hợp với sở thích của bạn. Bộ não #4: Với mục tiêu và môi trường đã được làm rõ, chúng tôi đã xây dựng một kế hoạch chi tiết. Nó phân chia mục tiêu cấp cao thành các hành động có thứ tự và các bước điều kiện. Nó lập lịch các nhiệm vụ (đôi khi song song, như làm nóng lò trong khi thái rau) và đặt ra các cột mốc (nước đã sôi, nước sốt đã sẵn sàng). Nó cũng theo dõi tiến độ và có thể lập kế hoạch lại ngay lập tức nếu có điều gì thay đổi (ví dụ, một nguyên liệu bị thiếu). Sau đó, nó chuyển giao chuỗi hành động này cho các bộ não cấp chuyển động để thực hiện. Một bộ não Hệ thống 2 khác. Bộ não #5: Đến lúc chuyển từ kiến trúc Hệ thống 2 sang Hệ thống 1, chuyển đổi kế hoạch thành các chuyển động cụ thể của robot. Đối với mỗi hành động (như “đi đến tủ lạnh” hoặc “thái cà rốt”), nó tạo ra các quỹ đạo áp dụng cho cơ thể và chi của robot. Mô-đun này xử lý lập kế hoạch đường đi và động học ngược, tính toán các đường đi và góc khớp để robot di chuyển mượt mà mà không va chạm. Nó thường áp dụng các chính sách động học đã học (như chính sách biến đổi khuếch tán) để tạo ra các chuyển động mượt mà cho các nhiệm vụ phức tạp. Nếu Bộ não 4 nói để lấy một cái nồi từ tủ lạnh, Bộ não 5 sẽ tìm ra cách đưa robot đến đó và cách nắm lấy cái nồi. Nơi mà nó phối hợp nhiều chi khi cần thiết (sử dụng hai tay để nâng một cái nồi nặng, chẳng hạn). Ý định cấp cao chuyển thành sự hội tụ của phần cứng và phần mềm đang chuyển động. Bộ não #6: Khi một kế hoạch chuyển động đã được thiết lập, đã đến lúc thực hiện. Bộ não điều khiển cấp thấp Hệ thống 1 này điều khiển các bộ phận hoạt động của robot (động cơ và khớp). Nó liên tục đọc cảm biến (góc khớp, lực, cân bằng) và gửi tín hiệu điều khiển để theo dõi quỹ đạo. Sử dụng các vòng điều khiển (bộ điều khiển PID, điều khiển dự đoán mô hình, v.v.) để giữ độ chính xác, nếu robot bắt đầu nghiêng hoặc một con dao lệch hướng, nó sẽ điều chỉnh ngay lập tức. Đây là những phản xạ và kỹ năng vận động tinh vi hoạt động ở tốc độ mili giây. Khi robot thái một củ cà rốt, Bộ não 6 điều chỉnh lực và điều chỉnh góc lưỡi dao để có những lát đồng đều mà không bị trượt. Nó giống như “trí nhớ cơ bắp” tiềm thức của hệ thống, xử lý các chi tiết cấp thấp một cách tự động. Bộ não #7: Mảnh ghép cuối cùng là tập trung vào việc cải tiến liên tục. Trong và sau khi chuẩn bị bữa tối, nó phân tích hiệu suất. Nó có làm đổ thứ gì không? Nó có quá chậm khi khuấy không? Mô-đun này sử dụng học tăng cường và tự hiệu chỉnh để cập nhật các mô hình của robot theo thời gian. Các kỹ năng cốt lõi của robot ban đầu được đào tạo trên các buổi trình diễn của con người khổng lồ và thử nghiệm và sai sót, nhưng bạn cần liên tục tinh chỉnh chúng. Nếu nó phát hiện ra một kỹ thuật thái hiệu quả hơn hoặc một cách cầm thìa tốt hơn, nó cập nhật chính sách của mình để bữa tối tiếp theo diễn ra suôn sẻ hơn. Bộ não thích ứng này cho phép người máy trở nên thành thạo hơn với kinh nghiệm. Codec: Các điều hành viên trong hành động Kiến trúc của Codec kết nối những bộ não này như thế nào? Mỗi “bộ não” hoạt động như một mô-đun Điều hành viên riêng biệt trong hệ thống AI của robot. Việc điều phối Fabric của Codec cung cấp cho mỗi điều hành viên môi trường an toàn, được cách ly riêng. Có nghĩa là, mô-đun thị giác, mô-đun ngôn ngữ/logic, mô-đun lập kế hoạch, v.v., tất cả hoạt động trong sự cô lập nhưng giao tiếp thông qua các giao diện được xác định. Nếu một mô-đun gặp sự cố hoặc có lỗi, nó sẽ không làm sập toàn bộ robot, các mô-đun khác vẫn hoạt động an toàn. Thiết kế mô-đun này cũng giúp dễ dàng cập nhật hoặc thay thế một bộ não mà không ảnh hưởng đến phần còn lại, và thêm các điều hành viên chuyên biệt mới khi cần thiết. Cách tiếp cận điều hành viên này hỗ trợ trực tiếp cho khung đa bộ não. Khi bạn yêu cầu bữa tối, bộ não điều hành của robot (Bộ não 1) có thể khởi động một điều hành viên “đầu bếp” chuyên dụng cho nhiệm vụ đó, trong khi các điều hành viên khác xử lý nhận thức và điều khiển song song. Mỗi điều hành viên chỉ có quyền truy cập vào các tài nguyên mà nó cần (ví dụ, tác nhân công thức có thể có quyền truy cập internet để lấy hướng dẫn, trong khi tác nhân điều khiển chỉ giao tiếp với phần cứng), điều này cải thiện độ an toàn. Thiết kế mô-đun, được cách ly của Codec là keo dính cho tất cả những kỹ năng đa dạng này hoạt động cùng nhau, tương tự như microservices trong phần mềm, cho phép người máy xử lý đáng tin cậy các nhiệm vụ phức tạp như nấu bữa tối từ đầu.

You’ll see foundation models for Humanoids continually using a System 2 + System 1 style architecture which is actually inspired by human cognition. Most vision-language-action (VLA) models today are built as centralized multimodal systems that handle perception, language, and action within a single network. Codec’s infrastructure is perfect for this as it treats each Operator as a sandboxed module. Meaning you can spin up multiple Operators in parallel, each running its own model or task, while keeping them encapsulated and coordinated through the same architecture. Robots and Humanoids in general typically have multiple brains, where one Operator might handle vision processing, another handling balance, another doing high level planning etc, which can all be coordinated through Codec’s system. Nvidia’s foundation model Issac GR00T N1 uses the two module System 2 + System 1 architecture. System 2 is a vision-language model (a version of PaLM or similar, multimodal) that observes the world through the robot’s cameras and listens to instructions, then makes a high level plan. System 1 is a diffusion transformer policy that takes that plan and turns it into continuous motions in real time. You can think of System 2 as the deliberative brain and System 1 as the instinctual body controller. System 2 might output something like “move to the red cup, grasp it, then place it on the shelf,” and System 1 will generate the detailed joint trajectories for the legs and arms to execute each step smoothly. System 1 was trained on tons of trajectory data (including human teleoperated demos and physics simulated data) to master fine motions, while System 2 was built on a transformer with internet pretraining (for semantic understanding). This separation of reasoning vs. acting is very powerful for NVIDIA. It means GR00T can handle long horizon tasks that require planning (thanks to System 2) and also react instantly to perturbations (thanks to System 1). If a robot is carrying a tray and someone nudges the tray, System 1 can correct the balance immediately rather than waiting for the slower System 2 to notice. GR00T N1 was one of the first openly available robotics foundation models, and it quickly gained traction. Out of the box, it demonstrated skill across many tasks in simulation, it could grasp and move objects with one hand or two, hand items between its hands, and perform multi step chores without any task specific programming. Because it wasn’t tied to a single embodiment, developers showed it working on different robots with minimal adjustments. This is also true for Helix (Figure’s foundation model) which uses this type of architecture. Helix allows for two robots or multiple skills to operate, Codec could enable a multi agent brain by running several Operators that share information. This “isolated pod” design means each component can be specialized (just like System 1 vs System 2) and even developed by different teams, yet they can work together. It’s a one of a kind approach in the sense that Codec is building the deep software stack to support this modular, distributed intelligence, whereas most others only focus on the AI model itself. Codec also leverages large pre trained models. If you’re building a robot application on it, you might plug in an OpenVLA or a Pi Zero foundation model as part of your Operator. Codec provides the connectors, easy access to camera feeds or robot APIs, so you don’t have to write the low level code to get images from a robot’s camera or to send velocity commands to its motors. It’s all abstracted behind a high level SDK. One of the reasons I’m so bullish on Codec is exactly what I outlined above. They’re not chasing narratives, the architecture is built to be the glue between foundation models, and it frictionlessly supports multi brain systems, which is critical for humanoid complexity. Because we’re so early in this trend, it’s worth studying the designs of industry leaders and understanding why they work. Robotics is hard to grasp given the layers across hardware and software, but once you learn to break each section down piece by piece, it becomes far easier to digest. It might feel like a waste of time now, but this is the same method that gave me a head start during AI szn and why I was early on so many projects. Become disciplined and learn which components can co exist and which components don’t scale. It’ll pay dividends over the coming months. Deca Trillions ( $CODEC ) coded.

8,94K

Hàng đầu

Thứ hạng

Yêu thích