Rok 2025 je rokem agentů a klíčovou schopností agentů jsou nástroje pro volání. Při použití Claude Code mohu říct umělé inteligenci, aby prošla newsletter, našla všechny odkazy na startupy a ověřila, že existují v našem CRM, a to jediným příkazem. To může zahrnovat volání dvou nebo tří různých nástrojů. Ale tady je problém: použití velkého základního modelu pro toto je drahé, často omezené rychlostí a příliš výkonné pro výběrový úkol. Jaký je nejlepší způsob, jak vytvořit agentický systém s voláním nástrojů? Odpověď se skrývá v malých akčních modelech. NVIDIA vydala přesvědčivý článek, ve kterém tvrdí, že "malé jazykové modely (SLM) jsou dostatečně výkonné, ze své podstaty vhodnější a nutně ekonomičtější pro mnoho vyvolání v agentních systémech". Testoval jsem různé místní modely, abych ověřil cvičení snižování nákladů. Začal jsem s modelem parametrů Qwen3:30b, který funguje, ale může být docela pomalý, protože je to tak velký model, i když jsou v jednom okamžiku aktivní pouze 3 miliardy z těchto 30 miliard parametrů. Dokument společnosti NVIDIA doporučuje model Salesforce xLAM – odlišnou architekturu označovanou jako model velkých akcí speciálně navrženou pro výběr nástrojů. Provedl jsem tedy svůj vlastní test, každý model volal nástroj se seznamem mých úkolů v Asaně. Výsledky byly pozoruhodné: xLAM dokončil úkoly za 2,61 sekundy se 100% úspěšností, zatímco Qwen to trvalo 9,82 sekundy s 92% úspěšností – téměř čtyřikrát déle. Tento experiment ukazuje nárůst rychlosti, ale je zde kompromis: kolik inteligence by mělo být v modelu ve srovnání se samotnými nástroji. Tento omezený U větších modelů, jako je Qwen, mohou být nástroje jednodušší, protože model má lepší odolnost proti chybám a dokáže obejít špatně navržená rozhraní. Model kompenzuje omezení nástroje pomocí uvažování hrubou silou. U menších modelů má model menší schopnost zotavit se z chyb, takže nástroje musí být robustnější a logika výběru přesnější. Může se to zdát jako omezení, ale ve skutečnosti se jedná o funkci. Toto omezení eliminuje složenou chybovost zřetězených nástrojů LLM. Když velké modely provádějí sekvenční volání nástrojů, chyby se hromadí exponenciálně. Malé akční modely si vynucují lepší návrh systému, zachovávají to nejlepší z LLM a kombinují je se specializovanými modely. Tato architektura je efektivnější, rychlejší a předvídatelnější.
5,12K