熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

CodecFlow
AI Operators 和 Robotics on @Solana 的執行層
CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump
VLAs 仍然非常新,很多人发现很难理解 VLAs 和 LLMs 之间的区别。
這裡深入探討這些 AI 系統在推理、感知和行動方面的不同。第一部分。
讓我們分解關鍵區別,以及圍繞 LLM 包裝的 AI 代理與使用 VLA 模型的操作代理之間的不同:
1. 感知:它們如何感知世界
代理(LLM):處理文本或結構化數據,例如 JSON、API,有時還包括圖像。就像一個大腦處理乾淨、抽象的輸入。想像一下閱讀手冊或解析電子表格。適合結構化環境,但受限於輸入的數據。
操作員(VLA):從攝像頭獲取原始實時像素,以及傳感器數據(例如觸摸、位置)和本體感知(對運動的自我意識)。就像用眼睛和感官在世界中導航,適應動態、混亂的環境,如用戶界面或物理空間。
2. 行動:它們如何互動
代理:通過調用函數、工具或 API 來行動。想像它像一個經理發送精確的指令,比如“通過 Expedia API 預訂航班。”這是有意的,但依賴於預構建的工具和清晰的接口。
操作員:執行連續的低級動作,如移動鼠標光標、打字或控制機器人關節。就像一個熟練的工人直接操控環境,適合需要實時精確的任務。
3. 控制:它們如何做出決策
代理:遵循一個緩慢的反思循環:計劃、調用工具、評估結果、重複。它是受限於令牌(受限於文本處理)和網絡(等待 API 響應)。這使得它在實時任務中顯得方法論但緩慢。
操作員:在緊密的反饋循環中進行逐步決策。想像一下玩家對螢幕上的內容做出即時反應。這種速度使得流暢的互動成為可能,但需要強大的實時處理能力。
4. 學習數據:什麼推動它們的訓練
代理:在大量文本語料庫、指令、文檔或 RAG(檢索增強生成)數據集上進行訓練。它從書籍、代碼或常見問題中學習,擅長對結構化知識進行推理。
操作員:從演示(例如人類執行任務的視頻)、遠程操作日誌或獎勵信號中學習。就像通過觀察和實踐學習,適合那些明確指令稀缺的任務。
5. 失敗模式:它們的弱點
代理:容易出現幻覺(編造答案)或脆弱的長遠計劃,如果一步失敗就會崩潰。就像一個過度思考或誤讀情況的戰略家。
操作員:面臨協變量偏移(當訓練數據與真實世界條件不匹配)或控制中的累積錯誤(小錯誤積累)。就像一個司機在不熟悉的道路上失去控制。
6. 基礎設施:它們背後的技術
代理:依賴於提示/路由器來決定調用哪些工具,工具註冊表用於可用功能,以及記憶/RAG 用於上下文。這是一個模組化的設置,就像一個指揮中心協調任務。
操作員:需要視頻攝取管道、實時控制的動作伺服器、安全保護以防止有害行為,以及重放緩衝區來存儲經驗。這是一個為動態環境構建的高性能系統。
7. 各自的優勢:它們的甜蜜點
代理:在具有乾淨 API 的工作流程中占主導地位(例如,自動化業務流程)、對文檔進行推理(例如,總結報告)或代碼生成。它是結構化、高級任務的首選。
操作員:在混亂、沒有 API 的環境中表現出色,如導航笨重的用戶界面、控制機器人或處理遊戲般的任務。如果涉及與不可預測系統的實時互動,VLA 是王者。
8. 心智模型:規劃者 + 執行者
將 LLM 代理視為規劃者:它將複雜任務分解為清晰、邏輯的目標。
VLA 操作員是執行者,通過直接與像素或物理系統互動來執行這些目標。一個檢查者(另一個系統或代理)監控結果以確保成功。
$CODEC

17.28K
Codecflow Optr 提供了一種統一的方法來構建能夠在數字和物理環境中觀察、推理和行動的智能體。無論是自動化桌面工作流程、控制機器手臂,還是在模擬中進行測試,它都使用相同的思維模型和基本元素。

Louround 🥂8月21日 04:10
在牛市中,回調是值得買入的,尤其是那些有重大催化劑的項目。
我們都知道,人工智慧是這一周期的敘事,由ai16z和Virtuals在去年開始。
我認為市場將關注更複雜和更先進的技術,如VLA,讓我告訴你原因。
LLM(大型語言模型)主要是閱讀和寫作文本:它們擅長解釋、規劃和生成指令,但它們本身並不控制電機或與物理世界互動(正如你可能在使用chatgpt時體驗到的)。
VLA(視覺語言行動模型)與LLM不同,因為它們是多模態系統,能夠觀察事物(視覺)、理解指令(語言)並直接產生行動。就像告訴機器人去拿一個紅色的杯子,然後它的手臂就會移動去做這件事。
VLA是通過將圖像/視頻 + 指令 + 實際行動軌跡(機器人實際移動的方式)配對的示例進行訓練的,並且它們必須在實時中快速且安全地運行。LLM則是通過大量文本集合進行訓練,專注於推理和語言任務。
簡而言之,LLM思考和說話,而VLA則觀察、推理和行動。
正如你所看到的,VLA是對LLM的重大補充,將顯著推動整體經濟中0到1的創新,即機器人技術。大多數投資基金正在將大量投資分配到這個被視為人工智慧行業下一個邏輯演變的領域。
我之前已經發布了一篇關於加密市場當前領導者@codecopenflow的帖子,該項目沒有籌集資金(公平啟動),但正在推出尖端產品,目前市值為2300萬美元。
作為參考,其他加密競爭者籌集了2000萬美元(@openmind_agi),其市值可能在2億到3億以上,而尚未建立和推出任何產品或社區。
Codec在該領域成為領先項目的原因在於它們解決了機器人和人工智慧中的一個關鍵瓶頸,即讓所有人工智慧工具相互互動的困難。讓我來解釋一下。
他們最新發布的OPTR(操作員)是一個工具包,幫助構建能夠在多個平台上互動的操作員,如機器人、桌面、瀏覽器或模擬。操作員的目標是在數字(計算機)和物理(機器人)世界中觀察、推理和行動(VLA)。
這個工具包作為機器人團隊的核心基礎設施,旨在測試他們的產品並通過提供統一的體驗來增強整體過程,而不是為網頁瀏覽器、模擬或機器人提供單獨的體驗。這本質上使得操作員在其環境中具有適應性和自主性。
所以你明白了,這將為那些之前必須手動完成每一步的公司和開發者節省大量時間,而節省時間就意味著節省金錢。
這也將使Codec能夠快速構建自己的操作員項目,並通過他們的市場相對快速地推出新能力。
簡而言之:你可能見過機器人折疊紙巾、分類箱子或在各種元素上跳躍的視頻。它們都是為這個非常特定的用例進行訓練的,不幸的是,一項技能無法像人類那樣在另一個環境中重複使用。Codec的OPTR通過使技能在環境和情境之間可轉移來解決這個問題,使企業的培訓和開發變得更快、更便宜。
這就是Codec在統一數字世界與物理世界方面如此有趣的原因。
$CODEC,Coded.

2.11K
We're glad to see the Chinese community noticing CodecFlow and loving what we’re building.
歡迎你們. We’re just getting started. Much more to come.

0xFunky2025年7月13日
PUMP 公售結束了,原本我也是大額在Bybit,鏈上只放1/2,最後只有鏈上的打成功,還好沒有提前套保…
話說最近AI社群上很多人在討論 VLA(Vision‑Language‑Action)
特別去研究了一下鏈上項目有沒有人在做VLA相關的,看到了這個 CodecFlow @Codecopenflow 的項目,買了一點。
== CodecFlow這項目在幹嘛 ==
簡單介紹一下VLA,VLA 是一種讓 AI 不只「能說」,而是「能做」的模型架構。
傳統的 LLM(像 GPT)只能理解語言、提供建議,但它不會動手操作、不會點擊畫面、不會抓取物體。
VLA 模型的意思就是整合了三大能力:
1. Vision(視覺):看得懂畫面、截圖、攝影機輸入或感測器資料
2. Language(語言):理解人類的自然語言指令
3. Action(動作):產生可執行的指令,如滑鼠點擊、鍵盤輸入、控制機械手臂
CodecFlow 他們就是在做鏈上的VLA,所有操作流程還可以上鏈,可審計、可驗證、可結算。
簡單來說就是 “AI 機器人” 的基礎架構。
== 為什麼我會特別注意這項目?==
我發現他們的開發者是 VLA 領域最火開源專案 LeRobot 的核心貢獻者!
LeRobot 就是開源界打造 VLA 模型的頂級基地,包含了 SmolVLA 等能在筆電上跑的輕量 VLA。
代表這團隊是真的懂VlA架構懂Robot的。
我看他們也持續的在建設,幣價也穩定的在上漲,我自己是很看好VLA賽道,而且從整體趨勢來看VLA跟機器人在市場上確實是未來。
• Web2 巨頭(Google、Meta、Tesla)目前已全力投入 VLA & 機器人訓練;
• Web3 項目好少有能執行任務的 VLA 應用還非常稀缺
• VLA 有機會在 DePIN、Web Automation、鏈上 AI Agent 執行等場景發揮巨大價值。
CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump
Always DYOR。
3.94K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可