2025 ist das Jahr der Agenten, und die Schlüsselkompetenz von Agenten ist das Aufrufen von Tools. Wenn ich Claude Code benutze, kann ich der KI sagen, sie soll einen Newsletter durchforsten, alle Links zu Startups finden, überprüfen, ob sie in unserem CRM existieren, und das mit einem einzigen Befehl. Das könnte beinhalten, dass zwei oder drei verschiedene Tools aufgerufen werden. Aber hier ist das Problem: Die Verwendung eines großen Basis-Modells dafür ist teuer, oft rate-limitiert und überdimensioniert für eine Auswahlaufgabe. Was ist der beste Weg, ein agentisches System mit Tool-Aufrufen zu bauen? Die Antwort liegt in kleinen Aktionsmodellen. NVIDIA hat ein überzeugendes Papier veröffentlicht, das argumentiert, dass "kleine Sprachmodelle (SLMs) ausreichend leistungsfähig, von Natur aus geeigneter und notwendigerweise wirtschaftlicher für viele Aufrufe in agentischen Systemen sind." Ich habe verschiedene lokale Modelle getestet, um eine Kostenreduzierung zu validieren. Ich begann mit einem Qwen3:30b-Parameter-Modell, das funktioniert, aber ziemlich langsam sein kann, weil es ein so großes Modell ist, obwohl nur 3 Milliarden dieser 30 Milliarden Parameter zu einem bestimmten Zeitpunkt aktiv sind. Das NVIDIA-Papier empfiehlt das Salesforce xLAM-Modell – eine andere Architektur, die als großes Aktionsmodell speziell für die Tool-Auswahl entwickelt wurde. Also habe ich einen eigenen Test durchgeführt, bei dem jedes Modell ein Tool aufruft, um meine Asana-Aufgaben aufzulisten. Die Ergebnisse waren auffällig: xLAM hat die Aufgaben in 2,61 Sekunden mit 100 % Erfolg abgeschlossen, während Qwen 9,82 Sekunden mit 92 % Erfolg benötigte – fast viermal so lange. Dieses Experiment zeigt den Geschwindigkeitsgewinn, aber es gibt einen Kompromiss: Wie viel Intelligenz sollte im Modell versus in den Tools selbst leben. Dies ist begrenzt. Bei größeren Modellen wie Qwen können die Tools einfacher sein, weil das Modell eine bessere Fehlertoleranz hat und mit schlecht gestalteten Schnittstellen umgehen kann. Das Modell kompensiert die Einschränkungen der Tools durch brutale Logik. Bei kleineren Modellen hat das Modell weniger Kapazität, um sich von Fehlern zu erholen, sodass die Tools robuster sein müssen und die Auswahllogik präziser. Das mag wie eine Einschränkung erscheinen, ist aber tatsächlich ein Merkmal. Diese Einschränkung beseitigt die kumulative Fehlerquote von LLM-verketteten Tools. Wenn große Modelle sequenzielle Tool-Aufrufe machen, sammeln sich Fehler exponentiell an. Kleine Aktionsmodelle zwingen zu einem besseren Systemdesign, indem sie das Beste aus LLMs bewahren und mit spezialisierten Modellen kombinieren. Diese Architektur ist effizienter, schneller und vorhersehbarer.
5,18K