Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Good data points on the importance of "context engineering":
Input tokens may be cheaper than output tokens, but context heavy tasks (like coding) can require 300-400x more input tokens of context than output tokens, making context 98% of total LLM usage costs.
Latency also grows w/ larger context size.
Underscores the importance of providing the right context at the right time when building AI applications, and, I assume, leaves a lot of room for competitive differentiation in AI-navtive SaaS apps.

9. Juli 2025
Wenn Sie die KI abfragen, sammelt sie relevante Informationen, um Ihnen zu antworten.
Aber wie viele Informationen benötigt das Modell?
Gespräche mit Praktizierenden offenbarten ihre Intuition: Der Input war ~20x größer als der Output.
Aber meine Experimente mit der Befehlszeilenschnittstelle des Gemini-Tools, die detaillierte Token-Statistiken ausgibt, haben gezeigt, dass sie viel höher ist.
300x im Durchschnitt und bis zu 4000x.
Hier ist der Grund, warum dieses hohe Input-to-Output-Verhältnis für jeden wichtig ist, der mit KI baut:
Beim Kostenmanagement dreht sich alles um den Input. Bei API-Aufrufen, die pro Token berechnet werden, bedeutet ein Verhältnis von 300:1, dass die Kosten vom Kontext und nicht von der Antwort bestimmt werden. Diese Preisdynamik gilt für alle wichtigen Modelle.
Auf der Preisseite von OpenAI sind Ausgabe-Token für GPT-4.1 4x so teuer wie Eingabe-Token. Aber wenn der Input 300x umfangreicher ist, betragen die Inputkosten immer noch 98 % der Gesamtrechnung.
Die Latenz ist eine Funktion der Kontextgröße. Ein wichtiger Faktor, der bestimmt, wie lange ein Benutzer auf eine Antwort wartet, ist die Zeit, die das Modell benötigt, um die Eingabe zu verarbeiten.
Es definiert die technische Herausforderung neu. Diese Beobachtung beweist, dass die zentrale Herausforderung beim Entwickeln mit LLMs nicht nur in der Aufforderung besteht. Es ist Context Engineering.
Die entscheidende Aufgabe besteht darin, einen effizienten Datenabruf und -kontext aufzubauen - Pipelines zu erstellen, die die besten Informationen finden können, und sie in den kleinstmöglichen Token-Fußabdruck zu destillieren.
Das Caching wird geschäftskritisch. Wenn 99 % der Token in der Eingabe enthalten sind, wird der Aufbau einer robusten Caching-Schicht für häufig abgerufene Dokumente oder gängige Abfragekontexte von einem "Nice-to-have" zu einer zentralen architektonischen Anforderung für die Entwicklung eines kostengünstigen und skalierbaren Produkts.
Für Entwickler bedeutet dies, dass die Konzentration auf die Eingabeoptimierung ein entscheidender Hebel ist, um Kosten zu kontrollieren, Latenzzeiten zu reduzieren und letztendlich ein erfolgreiches KI-gestütztes Produkt zu entwickeln.




1,58K
Top
Ranking
Favoriten