2025年是代理人的年代,而代理人的關鍵能力是調用工具。 使用Claude Code時,我可以告訴AI篩選一份新聞通訊,找到所有初創公司的鏈接,並驗證它們在我們的CRM中存在,只需一個命令。這可能涉及調用兩到三個不同的工具。 但問題在於:使用大型基礎模型來做這件事是昂貴的,通常受到速率限制,並且對於選擇任務來說過於強大。 建立一個具有工具調用的代理系統的最佳方法是什麼? 答案在於小型行動模型。NVIDIA發表了一篇引人注目的論文,主張「小型語言模型(SLMs)足夠強大,天生更適合,並且在代理系統中的許多調用中必然更具經濟性。」 我一直在測試不同的本地模型,以驗證成本降低的實驗。我從一個Qwen3:30b參數模型開始,這個模型有效,但因為它是一個如此大的模型,所以可能會相當慢,儘管在任何時候只有30億個參數中的3億個是活躍的。 NVIDIA的論文推薦Salesforce xLAM模型——一種不同的架構,稱為大型行動模型,專門設計用於工具選擇。 因此,我進行了自己的測試,每個模型調用一個工具來列出我的Asana任務。 結果令人驚訝:xLAM在2.61秒內完成任務,成功率為100%,而Qwen則花了9.82秒,成功率為92%——幾乎是四倍的時間。 這個實驗顯示了速度的提升,但有一個權衡:模型中應該有多少智能,與工具本身相比。這是有限的。 對於像Qwen這樣的大型模型,工具可以更簡單,因為模型具有更好的錯誤容忍度,並且可以繞過設計不良的界面。模型通過強力推理來彌補工具的限制。 對於較小的模型,模型恢復錯誤的能力較弱,因此工具必須更穩健,選擇邏輯必須更精確。這看起來可能是一種限制,但實際上是一種特性。 這一約束消除了LLM鏈式工具的累積錯誤率。當大型模型進行連續的工具調用時,錯誤會指數級地累積。 小型行動模型迫使更好的系統設計,保留LLM的優勢並將其與專門模型結合。 這種架構更高效、更快且更可預測。
5.12K