Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

CodecFlow

Lớp thực thi cho Người vận hành AI và Robot trên @Solana CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump

VLAs vẫn còn rất mới và nhiều người thấy khó khăn trong việc hiểu sự khác biệt giữa VLAs và LLMs. Dưới đây là một cái nhìn sâu sắc về cách mà các hệ thống AI này khác nhau trong lý luận, cảm nhận và hành động. Phần 1. Hãy phân tích những điểm khác biệt chính và cách mà các tác nhân AI được bao quanh bởi một LLM khác với các tác nhân điều hành sử dụng mô hình VLA: 1. Cảm nhận: Cách họ cảm nhận thế giới Tác nhân (LLM): Xử lý văn bản hoặc dữ liệu có cấu trúc như JSON, API, và đôi khi là hình ảnh. Nó giống như một bộ não làm việc với các đầu vào sạch sẽ, trừu tượng. Hãy nghĩ đến việc đọc một hướng dẫn hoặc phân tích một bảng tính. Tuyệt vời cho các môi trường có cấu trúc nhưng bị giới hạn bởi những gì được cung cấp cho nó. Điều hành (VLA): Nhìn thấy các pixel thô, thời gian thực từ camera, cộng với dữ liệu cảm biến (ví dụ: cảm ứng, vị trí) và cảm giác vị trí (nhận thức về chuyển động). Nó giống như việc điều hướng thế giới bằng mắt và các giác quan, phát triển trong các môi trường động, lộn xộn như giao diện người dùng hoặc không gian vật lý. 2. Hành động: Cách họ tương tác Tác nhân: Hành động bằng cách gọi các hàm, công cụ hoặc API. Hãy tưởng tượng nó như một người quản lý gửi các chỉ dẫn chính xác như "đặt vé máy bay qua API Expedia." Nó có chủ đích nhưng phụ thuộc vào các công cụ đã được xây dựng sẵn và các giao diện rõ ràng. Điều hành: Thực hiện các hành động liên tục, cấp thấp, như di chuyển con trỏ chuột, gõ, hoặc điều khiển các khớp robot. Nó giống như một công nhân lành nghề trực tiếp thao tác môi trường, lý tưởng cho các nhiệm vụ yêu cầu độ chính xác theo thời gian thực. 3. Kiểm soát: Cách họ đưa ra quyết định Tác nhân: Theo một vòng lặp chậm, phản ánh: lập kế hoạch, gọi một công cụ, đánh giá kết quả, lặp lại. Nó bị ràng buộc bởi token (bị giới hạn bởi xử lý văn bản) và bị ràng buộc bởi mạng (chờ phản hồi từ API). Điều này làm cho nó có phương pháp nhưng chậm chạp cho các nhiệm vụ theo thời gian thực. Điều hành: Hoạt động, đưa ra các quyết định từng bước trong một vòng phản hồi chặt chẽ. Hãy nghĩ về nó như một game thủ phản ứng ngay lập tức với những gì trên màn hình. Tốc độ này cho phép tương tác linh hoạt nhưng đòi hỏi xử lý thời gian thực mạnh mẽ. 4. Dữ liệu để học: Điều gì thúc đẩy việc đào tạo của họ Tác nhân: Được đào tạo trên các tập dữ liệu văn bản khổng lồ, hướng dẫn, tài liệu, hoặc RAG (Tạo ra Tăng cường Tìm kiếm). Nó học từ sách, mã, hoặc các câu hỏi thường gặp, xuất sắc trong việc lý luận trên kiến thức có cấu trúc. Điều hành: Học từ các minh họa (ví dụ: video của con người thực hiện các nhiệm vụ), nhật ký điều khiển từ xa, hoặc tín hiệu thưởng. Nó giống như học bằng cách quan sát và thực hành, hoàn hảo cho các nhiệm vụ mà hướng dẫn rõ ràng hiếm khi có. 5. Chế độ thất bại: Nơi họ gặp trục trặc Tác nhân: Dễ bị ảo giác (tạo ra câu trả lời) hoặc kế hoạch dài hạn dễ gãy nếu một bước thất bại. Nó giống như một chiến lược gia suy nghĩ quá nhiều hoặc hiểu sai tình huống. Điều hành: Đối mặt với sự thay đổi đồng biến (khi dữ liệu đào tạo không khớp với điều kiện thực tế) hoặc lỗi tích lũy trong kiểm soát (những sai lầm nhỏ tích tụ). Nó giống như một tài xế mất kiểm soát trên một con đường không quen thuộc. 6. Hạ tầng: Công nghệ đứng sau họ Tác nhân: Dựa vào một prompt/router để quyết định công cụ nào để gọi, một danh sách công cụ cho các chức năng có sẵn, và bộ nhớ/RAG cho ngữ cảnh. Nó là một thiết lập mô-đun, giống như một trung tâm chỉ huy điều phối các nhiệm vụ. Điều hành: Cần các đường ống tiếp nhận video, một máy chủ hành động cho kiểm soát thời gian thực, một lá chắn an toàn để ngăn chặn các hành động có hại, và một bộ đệm phát lại để lưu trữ kinh nghiệm. Nó là một hệ thống hiệu suất cao được xây dựng cho các môi trường động. 7. Nơi mỗi cái tỏa sáng: Điểm mạnh của họ Tác nhân: Chiếm ưu thế trong các quy trình làm việc với API sạch (ví dụ: tự động hóa quy trình kinh doanh), lý luận trên tài liệu (ví dụ: tóm tắt báo cáo), hoặc tạo mã. Nó là lựa chọn của bạn cho các nhiệm vụ có cấu trúc, cấp cao. Điều hành: Xuất sắc trong các môi trường lộn xộn, không có API như điều hướng các giao diện người dùng cồng kềnh, điều khiển robot, hoặc giải quyết các nhiệm vụ giống như trò chơi. Nếu nó liên quan đến tương tác thời gian thực với các hệ thống không thể đoán trước, VLA là vua. 8. Mô hình tâm lý: Người lập kế hoạch + Người thực hiện Hãy nghĩ về Tác nhân LLM như là người lập kế hoạch: nó phân chia các nhiệm vụ phức tạp thành các mục tiêu rõ ràng, logic. Điều hành VLA là người thực hiện, thực hiện những mục tiêu đó bằng cách tương tác trực tiếp với các pixel hoặc hệ thống vật lý. Một người kiểm tra (một hệ thống hoặc tác nhân khác) giám sát kết quả để đảm bảo thành công. $CODEC

Codecflow Optr cung cấp một cách tiếp cận thống nhất để xây dựng các tác nhân có khả năng nhìn, lý luận và hành động trong các môi trường kỹ thuật số và vật lý. Dù là tự động hóa quy trình làm việc trên máy tính để bàn, điều khiển cánh tay robot, hay thử nghiệm trong mô phỏng, nó sử dụng cùng một mô hình tư duy và các nguyên lý cơ bản.

Các đợt giảm giá trong một thị trường tăng giá thường được mua vào, đặc biệt là đối với những dự án có động lực lớn. Chúng ta đều biết rằng AI là câu chuyện của chu kỳ này, bắt đầu từ ai16z và Virtuals năm ngoái. Cá cược của tôi là thị trường sẽ tập trung vào những công nghệ phức tạp và tinh vi hơn như VLAs, và để tôi giải thích lý do tại sao. LLMs (Mô hình Ngôn ngữ Lớn) chủ yếu đọc và viết văn bản: chúng rất giỏi trong việc giải thích, lập kế hoạch và tạo ra hướng dẫn, nhưng chúng không tự mình điều khiển động cơ hoặc tương tác với thế giới vật lý (như bạn có thể đã trải nghiệm với chatgpt). VLAs (Mô hình Hành động Ngôn ngữ Thị giác) khác với LLMs vì chúng là hệ thống đa phương thức nhìn vào sự vật (thị giác), hiểu hướng dẫn (ngôn ngữ) và trực tiếp tạo ra hành động. Giống như việc bảo một con robot nhặt một cái cốc đỏ và sau đó di chuyển cánh tay của nó để làm điều đó. VLAs được đào tạo trên các ví dụ kết hợp hình ảnh/video + hướng dẫn + dấu vết hành động thực tế (cách mà một con robot thực sự di chuyển), và chúng phải hoạt động nhanh và an toàn trong thời gian thực. LLMs thì được đào tạo trên các bộ sưu tập văn bản khổng lồ và tập trung vào các nhiệm vụ lý luận và ngôn ngữ. Tóm lại, LLMs suy nghĩ và nói trong khi VLAs nhìn, lý luận và hành động. Như bạn có thể thấy, VLAs là một bổ sung lớn cho LLMs và sẽ đặc biệt cho phép đổi mới từ 0 đến 1 trong nền kinh tế tổng thể mà sẽ là robot. Phần lớn các quỹ đầu tư đang phân bổ một phần lớn các khoản đầu tư của họ vào lĩnh vực này, được coi là sự tiến hóa hợp lý tiếp theo trong ngành công nghiệp AI. Tôi đã từng đăng một bài cách đây không lâu về nhà lãnh đạo hiện tại trong thị trường crypto, @codecopenflow, mà không huy động vốn (ra mắt công bằng) nhưng đang cung cấp các sản phẩm tiên tiến và hiện đang có giá trị thị trường là 23 triệu USD. Để thông tin, các đối thủ crypto khác đã huy động 20 triệu USD ( @openmind_agi) với giá trị thị trường có thể là 200 triệu đến 300 triệu USD trong khi chưa có sản phẩm hoặc cộng đồng nào được xây dựng và phát hành. Điều làm cho Codec trở thành một dự án hàng đầu trong lĩnh vực này là họ giải quyết một nút thắt quan trọng trong robot và AI, đó là khó khăn trong việc có tất cả các công cụ AI tương tác với nhau. Để tôi giải thích. Phiên bản mới nhất của họ, OPTR (người điều hành), là một bộ công cụ giúp xây dựng các người điều hành có khả năng tương tác trên nhiều nền tảng như robot, máy tính để bàn, trình duyệt hoặc mô phỏng. Mục tiêu của một người điều hành là nhìn, lý luận và hành động (VLA) trong cả thế giới kỹ thuật số (máy tính) và vật lý (robot). Bộ công cụ này phục vụ như cơ sở hạ tầng cốt lõi cho các đội robot nhằm thử nghiệm sản phẩm của họ và nâng cao quy trình tổng thể bằng cách cung cấp một trải nghiệm thống nhất thay vì các trải nghiệm riêng biệt cho trình duyệt web, mô phỏng hoặc robot. Điều này về cơ bản làm cho người điều hành trở nên thích ứng và tự động bất kể môi trường của nó. Vì vậy, bạn hiểu rồi đấy, nó sẽ tiết kiệm rất nhiều thời gian cho các công ty và nhà phát triển, những người trước đây phải thực hiện từng bước một cách thủ công và nơi bạn có thể tiết kiệm thời gian thì bạn có thể tiết kiệm tiền. Nó cũng sẽ cho phép Codec xây dựng các dự án người điều hành của riêng họ và ra mắt các khả năng mới tương đối nhanh chóng trên thị trường, đặc biệt thông qua thị trường của họ. Tóm lại: Bạn có thể đã thấy các video về robot gấp khăn, phân loại hộp, hoặc nhảy trên các yếu tố khác nhau. Tất cả chúng đều đã được đào tạo cho trường hợp sử dụng rất cụ thể này, và không may, một kỹ năng không thể được tái sử dụng trong một môi trường khác như con người có thể làm. OPTR từ Codec giải quyết điều này bằng cách làm cho các kỹ năng có thể chuyển nhượng giữa các môi trường và tình huống, làm cho việc đào tạo và phát triển nhanh hơn và rẻ hơn cho các doanh nghiệp. Đó là lý do tại sao Codec lại thú vị trong việc thống nhất thế giới kỹ thuật số với thế giới vật lý. $CODEC, Coded.

Chúng tôi rất vui khi thấy cộng đồng Trung Quốc nhận ra CodecFlow và yêu thích những gì chúng tôi đang xây dựng. Chào mừng các bạn. Chúng tôi chỉ mới bắt đầu. Còn nhiều điều hơn nữa sẽ đến.

PUMP công khai đã kết thúc, ban đầu tôi cũng đã đầu tư lớn vào Bybit, chỉ để lại 1/2 trên chuỗi, cuối cùng chỉ có giao dịch trên chuỗi thành công, may mắn là không phải bảo hiểm trước… Nói về việc gần đây có nhiều người trong cộng đồng AI đang thảo luận về VLA (Vision‑Language‑Action) Tôi đã đặc biệt nghiên cứu xem có ai đang làm dự án liên quan đến VLA trên chuỗi không, và đã thấy dự án CodecFlow @Codecopenflow, tôi đã mua một ít. == CodecFlow đang làm gì == Giới thiệu ngắn gọn về VLA, VLA là một mô hình cho phép AI không chỉ "có thể nói", mà còn "có thể làm". Các LLM truyền thống (như GPT) chỉ có thể hiểu ngôn ngữ, cung cấp gợi ý, nhưng chúng không thể thực hiện thao tác, không thể nhấp vào màn hình, không thể lấy vật thể. Mô hình VLA có nghĩa là tích hợp ba khả năng lớn: 1. Vision (thị giác): hiểu hình ảnh, chụp màn hình, đầu vào từ camera hoặc dữ liệu cảm biến 2. Language (ngôn ngữ): hiểu lệnh ngôn ngữ tự nhiên của con người 3. Action (hành động): tạo ra các lệnh có thể thực hiện, như nhấp chuột, nhập bàn phím, điều khiển cánh tay robot CodecFlow đang làm VLA trên chuỗi, tất cả quy trình hoạt động còn có thể được ghi lại trên chuỗi, có thể kiểm toán, có thể xác minh, có thể thanh toán. Nói một cách đơn giản, đây là "hạ tầng cơ bản của robot AI". == Tại sao tôi đặc biệt chú ý đến dự án này? == Tôi phát hiện ra rằng các nhà phát triển của họ là những người đóng góp cốt lõi cho dự án mã nguồn mở LeRobot nổi tiếng trong lĩnh vực VLA! LeRobot là một trong những cơ sở hàng đầu để xây dựng mô hình VLA trong cộng đồng mã nguồn mở, bao gồm cả SmolVLA, một VLA nhẹ có thể chạy trên laptop. Điều này cho thấy đội ngũ này thực sự hiểu cấu trúc VLA và Robot. Tôi thấy họ cũng đang tiếp tục xây dựng, giá coin cũng ổn định tăng lên, tôi rất lạc quan về lĩnh vực VLA, và từ xu hướng tổng thể, VLA và robot thực sự là tương lai trên thị trường. • Các ông lớn Web2 (Google, Meta, Tesla) hiện đang đầu tư mạnh vào VLA & đào tạo robot; • Các dự án Web3 rất ít có ứng dụng VLA có thể thực hiện nhiệm vụ, vẫn còn rất hiếm • VLA có cơ hội phát huy giá trị lớn trong các tình huống như DePIN, Tự động hóa Web, thực hiện AI Agent trên chuỗi. CA: 69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump Luôn luôn DYOR.

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất