热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
2025年是代理人的时代,而代理人的关键能力是调用工具。
使用Claude Code时,我可以告诉AI筛选一份通讯,找到所有初创公司的链接,验证它们在我们的CRM中存在,只需一个命令。这可能涉及调用两个或三个不同的工具。
但问题在于:使用大型基础模型来做这个是昂贵的,通常受到速率限制,并且对于选择任务来说过于强大。
构建一个具有工具调用的代理系统的最佳方法是什么?
答案在于小型行动模型。NVIDIA发布了一篇引人注目的论文,认为“小型语言模型(SLMs)足够强大,天生更适合,并且在代理系统中的许多调用中必然更经济。”
我一直在测试不同的本地模型,以验证成本降低的效果。我从一个Qwen3:30b参数模型开始,它可以工作,但由于它是一个如此大的模型,可能会相当慢,尽管在任何时候只有30亿个参数中的3亿个是活跃的。
NVIDIA的论文推荐了Salesforce xLAM模型——一种专门为工具选择设计的大型行动模型的不同架构。
因此,我进行了自己的测试,每个模型调用一个工具来列出我的Asana任务。
结果令人震惊:xLAM在2.61秒内完成任务,成功率为100%,而Qwen则花费了9.82秒,成功率为92%——几乎慢了四倍。
这个实验显示了速度的提升,但也有一个权衡:模型中应该有多少智能,工具本身又应该有多少智能。这是有限的。
对于像Qwen这样的大型模型,工具可以更简单,因为模型具有更好的错误容忍度,并且可以绕过设计不良的接口。模型通过强力推理来弥补工具的局限性。
对于较小的模型,模型恢复错误的能力较差,因此工具必须更强大,选择逻辑必须更精确。这看起来可能是一个限制,但实际上是一个特性。
这种限制消除了LLM链式工具的累积错误率。当大型模型进行顺序工具调用时,错误会呈指数级累积。
小型行动模型迫使更好的系统设计,保留LLM的优点,并将其与专业模型结合。
这种架构更高效、更快且更可预测。


5.16K
热门
排行
收藏