🚨 這可能是自 ReAct 以來 AI 代理的最大飛躍。 研究人員剛剛推出了 DeepAgent,一種推理模型,能夠獨立思考、發現工具並完全自主行動。 沒有預先編寫的工作流程。沒有固定的工具列表。只有純粹的自主推理。 它引入了一種名為記憶折疊的狂野概念,代理實際上將其過去的思考“壓縮”成結構化的情節記憶、工作記憶和工具記憶……就像一個數位大腦在再次思考之前深呼吸。 他們還建立了一種新的強化學習方法,稱為 ToolPO,該方法不僅獎勵代理完成任務,還獎勵它在過程中如何使用工具。 結果呢?DeepAgent 在幾乎所有基準測試中都超越了 GPT-4 級別的代理,包括 WebShop、ALFWorld、GAIA,即使面對它從未見過的開放式工具。 這是朝著能像人類一樣運作的通用推理代理邁出的第一步,能夠記住、適應並學會如何思考。 代理時代剛剛升級。