Good data points on the importance of "context engineering": Input tokens may be cheaper than output tokens, but context heavy tasks (like coding) can require 300-400x more input tokens of context than output tokens, making context 98% of total LLM usage costs. Latency also grows w/ larger context size. Underscores the importance of providing the right context at the right time when building AI applications, and, I assume, leaves a lot of room for competitive differentiation in AI-navtive SaaS apps.
Tomasz Tunguz
Tomasz Tunguz9 lug 2025
Quando interroghi l'intelligenza artificiale, raccoglie informazioni pertinenti per risponderti. Ma di quante informazioni ha bisogno il modello? Le conversazioni con i praticanti hanno rivelato la loro intuizione: l'input era ~20 volte più grande dell'output. Ma i miei esperimenti con l'interfaccia a riga di comando dello strumento Gemini, che produce statistiche dettagliate sui token, hanno rivelato che è molto più alto. 300x in media e fino a 4000x. Ecco perché questo elevato rapporto input-to-output è importante per chiunque crei con l'intelligenza artificiale: La gestione dei costi è tutta una questione di input. Con le chiamate API prezzate per token, un rapporto di 300:1 significa che i costi sono dettati dal contesto, non dalla risposta. Questa dinamica dei prezzi vale per tutti i principali modelli. Sulla pagina dei prezzi di OpenAI, i token di output per GPT-4.1 sono 4 volte più costosi dei token di input. Ma quando l'input è 300 volte più voluminoso, i costi di input sono ancora il 98% del conto totale. La latenza è una funzione della dimensione del contesto. Un fattore importante che determina il tempo di attesa di una risposta da parte di un utente è il tempo impiegato dal modello per elaborare l'input. Ridefinisce la sfida dell'ingegneria. Questa osservazione dimostra che la sfida principale di costruire con gli LLM non è solo quella di sollecitare. È l'ingegneria del contesto. Il compito critico è quello di creare un efficiente recupero dei dati e del contesto, creando pipeline in grado di trovare le migliori informazioni e distillarle nel minor footprint di token possibile. La memorizzazione nella cache diventa mission-critical. Se il 99% dei token si trova nell'input, la creazione di un robusto livello di memorizzazione nella cache per i documenti recuperati di frequente o i contesti di query comuni passa da un requisito architetturale "piacevole da avere" a un requisito architettonico fondamentale per la creazione di un prodotto conveniente e scalabile. Per gli sviluppatori, ciò significa che concentrarsi sull'ottimizzazione dell'input è una leva fondamentale per controllare i costi, ridurre la latenza e, in ultima analisi, creare un prodotto di successo basato sull'intelligenza artificiale.
1,58K