2025 рік – це рік агентів, і ключовою здатністю агентів є виклик інструментів. Коли я використовую Claude Code, я можу сказати штучному інтелекту, щоб він просіяв інформаційний бюлетень, знайшов усі посилання на стартапи, перевірив їх існування в нашій CRM за допомогою однієї команди. Це може включати два або три різні інструменти. Але ось у чому проблема: використання великої моделі фундаменту для цього є дорогим, часто обмеженим за швидкістю та надмірно потужним для завдання вибору. Який найкращий спосіб побудувати агентську систему за допомогою виклику інструментів? Відповідь криється в моделях малої дії. NVIDIA випустила переконливу статтю, в якій стверджується, що «моделі на малій мові (SLM) є досить потужними, за своєю суттю більш придатними та обов'язково більш економічними для багатьох викликів в агентних системах». Я тестував різні місцеві моделі, щоб підтвердити вправу зі скорочення витрат. Я почав з моделі параметрів Qwen3:30b, яка працює, але може бути досить повільною, тому що це така велика модель, хоча лише 3 мільярди з цих 30 мільярдів параметрів активні в будь-який момент часу. У документі NVIDIA рекомендується модель Salesforce xLAM – іншу архітектуру, яку називають великою моделлю дії, спеціально розробленою для вибору інструментів. Отже, я провів власний тест, під час якого кожна модель викликала інструмент для переліку моїх завдань в Asana. Результати виявилися вражаючими: xLAM виконав завдання за 2,61 секунди зі 100% успіхом, тоді як Qwen зайняв 9,82 секунди з 92% успіхом – майже в чотири рази довше. Цей експеримент показує приріст швидкості, але є компроміс: скільки інтелекту має жити в моделі порівняно з самими інструментами. Ця обмежена З більшими моделями, такими як Qwen, інструменти можуть бути простішими, оскільки модель має кращу стійкість до помилок і може працювати в обхід погано розроблених інтерфейсів. Модель компенсує обмеженість інструменту за допомогою аргументації грубої сили. У менших моделях модель має меншу здатність відновлюватися після помилок, тому інструменти повинні бути більш надійними, а логіка вибору більш точною. Це може здатися обмеженням, але насправді це функція. Це обмеження усуває частоту помилок накопичення інструментів з ланцюгом LLM. Коли великі моделі здійснюють послідовні виклики інструментів, помилки накопичуються в геометричній прогресії. Моделі малого ладу змушують вдосконалювати конструкцію системи, зберігаючи найкраще з LLM і поєднуючи його зі спеціалізованими моделями. Ця архітектура є більш ефективною, швидкою та передбачуваною.
5,13K