Buenos puntos de datos sobre la importancia de la "ingeniería de contexto": Los tokens de entrada pueden ser más baratos que los tokens de salida, pero las tareas que requieren mucho contexto (como la programación) pueden necesitar de 300 a 400 veces más tokens de entrada de contexto que tokens de salida, lo que hace que el contexto represente el 98% de los costos totales de uso de LLM. La latencia también aumenta con un tamaño de contexto mayor. Subraya la importancia de proporcionar el contexto adecuado en el momento adecuado al construir aplicaciones de IA y, supongo, deja mucho espacio para la diferenciación competitiva en aplicaciones SaaS nativas de IA.
Tomasz Tunguz
Tomasz Tunguz9 jul 2025
Cuando consultas a la IA, esta recopila información relevante para responderte. Pero, ¿cuánta información necesita el modelo? Las conversaciones con profesionales revelaron su intuición: la entrada era ~20 veces mayor que la salida. Pero mis experimentos con la interfaz de línea de comandos de la herramienta Gemini, que proporciona estadísticas detalladas de tokens, revelaron que es mucho más alta. 300 veces en promedio y hasta 4000 veces. Aquí está la razón por la que esta alta relación de entrada a salida es importante para cualquiera que esté construyendo con IA: La gestión de costos se trata de la entrada. Con las llamadas a la API con precios por token, una relación de 300:1 significa que los costos están dictados por el contexto, no por la respuesta. Esta dinámica de precios se mantiene en todos los modelos principales. En la página de precios de OpenAI, los tokens de salida para GPT-4.1 son 4 veces más caros que los tokens de entrada. Pero cuando la entrada es 300 veces más voluminosa, los costos de entrada siguen siendo el 98% de la factura total. La latencia es una función del tamaño del contexto. Un factor importante que determina cuánto tiempo espera un usuario por una respuesta es el tiempo que tarda el modelo en procesar la entrada. Redefine el desafío de ingeniería. Esta observación demuestra que el desafío central de construir con LLMs no es solo la indicación. Es la ingeniería del contexto. La tarea crítica es construir una recuperación de datos eficiente y contexto: crear tuberías que puedan encontrar la mejor información y destilarla en la huella de token más pequeña posible. El almacenamiento en caché se vuelve crítico. Si el 99% de los tokens están en la entrada, construir una capa de caché robusta para documentos recuperados con frecuencia o contextos de consulta comunes pasa de ser un "bono" a un requisito arquitectónico central para construir un producto rentable y escalable. Para los desarrolladores, esto significa que centrarse en la optimización de la entrada es una palanca crítica para controlar costos, reducir la latencia y, en última instancia, construir un producto exitoso impulsado por IA.
1,57K