Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Acabo de terminar de leer este fascinante artículo de encuesta sobre "Modelos de lenguaje pequeño para sistemas agénticos". Esta encuesta argumenta que los modelos de lenguaje pequeños (SLM, ~ 1-12B parámetros) pueden manejar la mayoría de las tareas de los agentes, mientras que los LM grandes están reservados para los casos de borde duro. Ese simple cambio = ahorros masivos y una latencia mucho mejor para los agentes del mundo real. Papel →

El trabajo de los agentes rara vez es creatividad abierta. Son llamadas a herramientas, salidas estructuradas, fragmentos de código corto y flujos de trabajo deterministas, las cosas para las que están diseñados los SLM: inferencia más rápida, menor energía y tokens más baratos. Para las tareas comunes de llamada a funciones y basadas en esquemas, las arquitecturas predeterminadas de SLM reducen los costos entre un 10× y un 30× en comparación con las configuraciones solo de LLM. Las mejoras de energía y latencia escalan de manera similar.

El patrón práctico es simple: ejecute primero un SLM, valide su salida con esquemas JSON/CFG estrictos y solo se ejecute cuando se superen la confianza y la validación. Si no es así, escale a un LLM o ejecute un bucle de reparación del comprobador. El enrutamiento utiliza proxies como logprobs y autocoherencia, junto con etiquetas de tareas y reglas de presupuesto. Si la incertidumbre de SLM supera un umbral, intente corregir el verificador o enrute la solicitud a un LLM, lo que minimiza la necesidad de costosas llamadas de reserva.

SLM por defecto + LLM por excepción produce pilas de agentes sostenibles, escalables y rentables. Los esquemas, los validadores, los enrutadores y los adaptadores baratos le brindan confiabilidad, velocidad y enormes ahorros de costos.

2.04K

Populares

Ranking

Favoritas