什麼是$CODEC 機器人、操作員、遊戲? 以上所有以及更多。 Codec 的視覺-語言-動作 (VLA) 是一種與框架無關的模型,與 LLM 相比,由於其獨特的可視化錯誤能力,因此允許數十種用例。 在過去的 12 個月里,我們看到 LLM 主要作為迴圈機制發揮作用,由預定義的數據和回應模式驅動。 由於 LLM 建立在語音和文本之上,因此超越其訓練的語言上下文視窗的能力有限。他們無法解釋感官輸入,例如面部表情或即時情緒線索,因為他們的推理與語言而不是感知有關。 如今,大多數代理將基於 Transformer 的 LLM 與視覺編碼器相結合。他們通過螢幕截圖“看到”介面,解釋螢幕上的內容,並生成一系列作、點擊、擊鍵、滾動以遵循說明並完成任務。 這就是為什麼人工智慧還沒有取代大類工作的原因:法學碩士看到的是屏幕截圖,而不是圖元。他們不瞭解環境的動態視覺語義,只了解通過靜態幀可讀的內容。 他們的典型工作流程是重複的:捕獲螢幕截圖,推理下一個作,執行它,然後捕獲另一幀並重複。這種感知-思考迴圈一直持續到任務完成或代理失敗為止。 要真正概括,人工智慧必須感知其環境,推理其狀態,並採取適當的行動來實現目標,而不僅僅是解釋快照。 我們已經有了巨集、RPA 機器人和自動化腳本,但它們很弱且不穩定。輕微的圖元偏移或佈局更改會中斷流程,需要手動修補。當工作流程中發生某些變化時,他們無法適應。這就是瓶頸。 視覺-語言-行動 (VLA) 編解碼器的 VLA 代理在一個直觀但強大的迴圈上運行:感知、思考、行動。這些代理不像大多數 LLM 那樣只是吐出文本,而是查看其環境,決定要做什麼,然後執行。所有這些都打包到一個統一的管道中,您可以將其可視化為三個核心層: 視覺 智慧體首先通過視覺感知其環境。對於桌面操作員代理,這意味著捕獲當前狀態的螢幕截圖或視覺輸入(例如應用程式視窗或文本框)。VLA 模型的視覺元件解釋此輸入,讀取螢幕上的文字並識別介面元素或物件。又名特工的眼睛。 語言 然後是思考。給定視覺上下文(以及任何指令或目標),模型會分析需要採取哪些行動。從本質上講,人工智慧會像人一樣“思考”適當的反應。VLA 架構在內部融合了視覺和語言,因此代理可以理解彈出對話方塊正在詢問是/否問題。然後,它將根據目標或提示決定正確的作(例如按兩下“確定”)。作為代理的大腦,將感知到的輸入映射到動作。 行動 最後,代理通過向環境輸出控制命令來執行作。VLA 模型生成直接與系統交互的作(例如滑鼠按兩下、擊鍵或 API 呼叫),而不是文本。在對話框示例中,代理將執行按兩下確定按鈕。這就閉環了:行動後,智慧體可以目視檢查結果並繼續感知-思考-行動迴圈。作是將它們從聊天框轉變為實際操作員的關鍵分隔符。 使用案例 正如我所提到的,由於架構的原因,編解碼器與敘事無關。正如 LLM 不受其可以生成的文字輸出的限制一樣,VLA 也不受其可以完成的任務的限制。 機器人 VLA 代理不依賴舊的腳本或不完美的自動化,而是接收視覺輸入(攝像頭饋送或感測器),將其傳遞給語言模型進行規劃,然後輸出實際控制命令以移動世界或與世界交互。 基本上,機器人可以看到它面前的東西,處理諸如“將百事可樂罐移到橙色旁邊”之類的指令,弄清楚所有東西在哪裡,如何在不撞倒任何東西的情況下移動,並且無需硬編碼即可完成。 這與Google的 RT-2 或 PaLM-E 是同一類系統。融合視覺和語言以創建現實世界動作的大模型。CogAct 的 VLA 工作就是一個很好的例子,機器人掃描雜亂的桌子,得到一個自然的提示,並運行一個完整的迴圈:物件 ID、路徑規劃、運動執行。 運營商 在桌面和 Web 環境中,VLA 代理基本上像數位工作者一樣發揮作用。他們通過螢幕截圖或即時提要“看到”螢幕,通過基於語言模型構建的推理層運行它來理解 UI 和任務提示,然後像人類一樣使用真實的滑鼠和鍵盤控制執行作。 這個完整的迴圈,感知、思考、行動,不斷運行。因此,代理不僅做出一次反應,而且會主動導航介面,處理多個步驟流,而無需任何硬編碼腳本。該架構混合了用於讀取文本/按鈕/圖示的 OCR 風格視覺、用於決定要做什麼的語義推理以及可以按兩下、滾動、鍵入等的控制層。 這變得真正有趣的地方是錯誤處理。這些代理可以在行動後進行反思,並在事情沒有按預期進行時重新計劃。與 RPA 腳稿不同,如果 UI 略有變化,例如按鈕位置移動或標籤重命名,VLA 代理可以使用視覺提示和語言理解來適應新佈局。使其在介面不斷變化的現實世界自動化中更具彈性。 我個人在通過劇作家等工具編寫自己的研究機器人時遇到了困難。 賭博 遊戲是 VLA 代理可以大放異彩的最明顯用例之一,將它們視為不像機器人,而更像是沉浸式 AI 玩家。整個流程是相同的,代理看到遊戲螢幕(框架、功能表、文本提示)、關於它應該做什麼的原因,然後使用滑鼠、鍵盤或控制器輸入進行遊戲。 它不專注於蠻力,這是人工智慧學習如何像人類一樣玩遊戲。感知+思維+控制,都綁在一起。DeepMind 的 SIMA 專案通過將視覺語言模型與預測層相結合,並將其放入《無人深空》和《我的世界》等遊戲中,解鎖了這一點。只需觀看螢幕並按照說明進行作,代理就可以通過將正確的步驟連結在一起、收集木材、尋找火柴和使用庫存來完成“生篝火”等抽象任務。而且它也不僅限於一場比賽。它在不同的環境之間轉移了這些知識。 VLA 遊戲代理不會被鎖定在一個規則集中。同一個智慧體可以適應完全不同的機制,只是從視覺和語言基礎上。而且由於它建立在 LLM 基礎設施之上,因此它可以解釋它在做什麼,在遊戲中遵循自然語言指令,或者與玩家實時協作。 我們距離擁有適應您的遊戲風格和個人化的 AI 隊友不遠了,這一切都歸功於 Codec。
9.64K