熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
2025年是代理人的年代,而代理人的關鍵能力是調用工具。
使用Claude Code時,我可以告訴AI篩選一份新聞通訊,找到所有初創公司的鏈接,並驗證它們在我們的CRM中存在,只需一個命令。這可能涉及調用兩到三個不同的工具。
但問題在於:使用大型基礎模型來做這件事是昂貴的,通常受到速率限制,並且對於選擇任務來說過於強大。
建立一個具有工具調用的代理系統的最佳方法是什麼?
答案在於小型行動模型。NVIDIA發表了一篇引人注目的論文,主張「小型語言模型(SLMs)足夠強大,天生更適合,並且在代理系統中的許多調用中必然更具經濟性。」
我一直在測試不同的本地模型,以驗證成本降低的實驗。我從一個Qwen3:30b參數模型開始,這個模型有效,但因為它是一個如此大的模型,所以可能會相當慢,儘管在任何時候只有30億個參數中的3億個是活躍的。
NVIDIA的論文推薦Salesforce xLAM模型——一種不同的架構,稱為大型行動模型,專門設計用於工具選擇。
因此,我進行了自己的測試,每個模型調用一個工具來列出我的Asana任務。
結果令人驚訝:xLAM在2.61秒內完成任務,成功率為100%,而Qwen則花了9.82秒,成功率為92%——幾乎是四倍的時間。
這個實驗顯示了速度的提升,但有一個權衡:模型中應該有多少智能,與工具本身相比。這是有限的。
對於像Qwen這樣的大型模型,工具可以更簡單,因為模型具有更好的錯誤容忍度,並且可以繞過設計不良的界面。模型通過強力推理來彌補工具的限制。
對於較小的模型,模型恢復錯誤的能力較弱,因此工具必須更穩健,選擇邏輯必須更精確。這看起來可能是一種限制,但實際上是一種特性。
這一約束消除了LLM鏈式工具的累積錯誤率。當大型模型進行連續的工具調用時,錯誤會指數級地累積。
小型行動模型迫使更好的系統設計,保留LLM的優勢並將其與專門模型結合。
這種架構更高效、更快且更可預測。


5.12K
熱門
排行
收藏