熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨 這可能是自 ReAct 以來 AI 代理的最大飛躍。
研究人員剛剛推出了 DeepAgent,一種推理模型,能夠獨立思考、發現工具並完全自主行動。
沒有預先編寫的工作流程。沒有固定的工具列表。只有純粹的自主推理。
它引入了一種名為記憶折疊的狂野概念,代理實際上將其過去的思考“壓縮”成結構化的情節記憶、工作記憶和工具記憶……就像一個數位大腦在再次思考之前深呼吸。
他們還建立了一種新的強化學習方法,稱為 ToolPO,該方法不僅獎勵代理完成任務,還獎勵它在過程中如何使用工具。
結果呢?DeepAgent 在幾乎所有基準測試中都超越了 GPT-4 級別的代理,包括 WebShop、ALFWorld、GAIA,即使面對它從未見過的開放式工具。
這是朝著能像人類一樣運作的通用推理代理邁出的第一步,能夠記住、適應並學會如何思考。
代理時代剛剛升級。

熱門
排行
收藏

