Acabo de terminar de leer este fascinante artículo de encuesta sobre "Modelos de lenguaje pequeño para sistemas agénticos". Esta encuesta argumenta que los modelos de lenguaje pequeños (SLM, ~ 1-12B parámetros) pueden manejar la mayoría de las tareas de los agentes, mientras que los LM grandes están reservados para los casos de borde duro. Ese simple cambio = ahorros masivos y una latencia mucho mejor para los agentes del mundo real. Papel →
El trabajo de los agentes rara vez es creatividad abierta. Son llamadas a herramientas, salidas estructuradas, fragmentos de código corto y flujos de trabajo deterministas, las cosas para las que están diseñados los SLM: inferencia más rápida, menor energía y tokens más baratos. Para las tareas comunes de llamada a funciones y basadas en esquemas, las arquitecturas predeterminadas de SLM reducen los costos entre un 10× y un 30× en comparación con las configuraciones solo de LLM. Las mejoras de energía y latencia escalan de manera similar.
El patrón práctico es simple: ejecute primero un SLM, valide su salida con esquemas JSON/CFG estrictos y solo se ejecute cuando se superen la confianza y la validación. Si no es así, escale a un LLM o ejecute un bucle de reparación del comprobador. El enrutamiento utiliza proxies como logprobs y autocoherencia, junto con etiquetas de tareas y reglas de presupuesto. Si la incertidumbre de SLM supera un umbral, intente corregir el verificador o enrute la solicitud a un LLM, lo que minimiza la necesidad de costosas llamadas de reserva.
SLM por defecto + LLM por excepción produce pilas de agentes sostenibles, escalables y rentables. Los esquemas, los validadores, los enrutadores y los adaptadores baratos le brindan confiabilidad, velocidad y enormes ahorros de costos.
2.04K