一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

什麼是$CODEC 機器人、操作員、遊戲？以上所有以及更多。 Codec 的視覺-語言-動作（VLA）是一種與框架無關的模型，與 LLM 相比，由於其獨特的可視化錯誤能力，因此允許數十種用例。在過去的 12 個月里，我們看到 LLM 主要作為迴圈機制發揮作用，由預定義的數據和回應模式驅動。由於 LLM 建立在語音和文本之上，因此超越其訓練的語言上下文視窗的能力有限。他們無法解釋感官輸入，例如面部表情或即時情緒線索，因為他們的推理與語言而不是感知有關。如今，大多數代理將基於 Transformer 的 LLM 與視覺編碼器相結合。他們通過螢幕截圖“看到”介面，解釋螢幕上的內容，並生成一系列作、點擊、擊鍵、滾動以遵循說明並完成任務。這就是為什麼人工智慧還沒有取代大類工作的原因：法學碩士看到的是屏幕截圖，而不是圖元。他們不瞭解環境的動態視覺語義，只了解通過靜態幀可讀的內容。他們的典型工作流程是重複的：捕獲螢幕截圖，推理下一個作，執行它，然後捕獲另一幀並重複。這種感知-思考迴圈一直持續到任務完成或代理失敗為止。要真正概括，人工智慧必須感知其環境，推理其狀態，並採取適當的行動來實現目標，而不僅僅是解釋快照。我們已經有了巨集、RPA 機器人和自動化腳本，但它們很弱且不穩定。輕微的圖元偏移或佈局更改會中斷流程，需要手動修補。當工作流程中發生某些變化時，他們無法適應。這就是瓶頸。視覺-語言-行動（VLA）編解碼器的 VLA 代理在一個直觀但強大的迴圈上運行：感知、思考、行動。這些代理不像大多數 LLM 那樣只是吐出文本，而是查看其環境，決定要做什麼，然後執行。所有這些都打包到一個統一的管道中，您可以將其可視化為三個核心層：視覺智慧體首先通過視覺感知其環境。對於桌面操作員代理，這意味著捕獲當前狀態的螢幕截圖或視覺輸入（例如應用程式視窗或文本框）。VLA 模型的視覺元件解釋此輸入，讀取螢幕上的文字並識別介面元素或物件。又名特工的眼睛。語言然後是思考。給定視覺上下文（以及任何指令或目標），模型會分析需要採取哪些行動。從本質上講，人工智慧會像人一樣“思考”適當的反應。VLA 架構在內部融合了視覺和語言，因此代理可以理解彈出對話方塊正在詢問是/否問題。然後，它將根據目標或提示決定正確的作（例如按兩下“確定”）。作為代理的大腦，將感知到的輸入映射到動作。行動最後，代理通過向環境輸出控制命令來執行作。VLA 模型生成直接與系統交互的作（例如滑鼠按兩下、擊鍵或 API 呼叫），而不是文本。在對話框示例中，代理將執行按兩下確定按鈕。這就閉環了：行動後，智慧體可以目視檢查結果並繼續感知-思考-行動迴圈。作是將它們從聊天框轉變為實際操作員的關鍵分隔符。使用案例正如我所提到的，由於架構的原因，編解碼器與敘事無關。正如 LLM 不受其可以生成的文字輸出的限制一樣，VLA 也不受其可以完成的任務的限制。機器人 VLA 代理不依賴舊的腳本或不完美的自動化，而是接收視覺輸入（攝像頭饋送或感測器），將其傳遞給語言模型進行規劃，然後輸出實際控制命令以移動世界或與世界交互。基本上，機器人可以看到它面前的東西，處理諸如“將百事可樂罐移到橙色旁邊”之類的指令，弄清楚所有東西在哪裡，如何在不撞倒任何東西的情況下移動，並且無需硬編碼即可完成。這與Google的 RT-2 或 PaLM-E 是同一類系統。融合視覺和語言以創建現實世界動作的大模型。CogAct 的 VLA 工作就是一個很好的例子，機器人掃描雜亂的桌子，得到一個自然的提示，並運行一個完整的迴圈：物件 ID、路徑規劃、運動執行。運營商在桌面和 Web 環境中，VLA 代理基本上像數位工作者一樣發揮作用。他們通過螢幕截圖或即時提要“看到”螢幕，通過基於語言模型構建的推理層運行它來理解 UI 和任務提示，然後像人類一樣使用真實的滑鼠和鍵盤控制執行作。這個完整的迴圈，感知、思考、行動，不斷運行。因此，代理不僅做出一次反應，而且會主動導航介面，處理多個步驟流，而無需任何硬編碼腳本。該架構混合了用於讀取文本/按鈕/圖示的 OCR 風格視覺、用於決定要做什麼的語義推理以及可以按兩下、滾動、鍵入等的控制層。這變得真正有趣的地方是錯誤處理。這些代理可以在行動後進行反思，並在事情沒有按預期進行時重新計劃。與 RPA 腳稿不同，如果 UI 略有變化，例如按鈕位置移動或標籤重命名，VLA 代理可以使用視覺提示和語言理解來適應新佈局。使其在介面不斷變化的現實世界自動化中更具彈性。我個人在通過劇作家等工具編寫自己的研究機器人時遇到了困難。賭博遊戲是 VLA 代理可以大放異彩的最明顯用例之一，將它們視為不像機器人，而更像是沉浸式 AI 玩家。整個流程是相同的，代理看到遊戲螢幕（框架、功能表、文本提示）、關於它應該做什麼的原因，然後使用滑鼠、鍵盤或控制器輸入進行遊戲。它不專注於蠻力，這是人工智慧學習如何像人類一樣玩遊戲。感知+思維+控制，都綁在一起。DeepMind 的 SIMA 專案通過將視覺語言模型與預測層相結合，並將其放入《無人深空》和《我的世界》等遊戲中，解鎖了這一點。只需觀看螢幕並按照說明進行作，代理就可以通過將正確的步驟連結在一起、收集木材、尋找火柴和使用庫存來完成“生篝火”等抽象任務。而且它也不僅限於一場比賽。它在不同的環境之間轉移了這些知識。 VLA 遊戲代理不會被鎖定在一個規則集中。同一個智慧體可以適應完全不同的機制，只是從視覺和語言基礎上。而且由於它建立在 LLM 基礎設施之上，因此它可以解釋它在做什麼，在遊戲中遵循自然語言指令，或者與玩家實時協作。我們距離擁有適應您的遊戲風格和個人化的 AI 隊友不遠了，這一切都歸功於 Codec。

9.64K