Gdy wysyłasz zapytanie do sztucznej inteligencji, zbiera ona odpowiednie informacje, aby Ci odpowiedzieć. Ale ile informacji potrzebuje model? Rozmowy z praktykami ujawniły ich intuicję: dane wejściowe były ~20 razy większe niż wyjściowe. Ale moje eksperymenty z interfejsem wiersza poleceń narzędzia Gemini, który generuje szczegółowe statystyki tokenów, wykazały, że jest on znacznie wyższy. Średnio 300x i do 4000x. Oto dlaczego ten wysoki stosunek nakładów do wyników ma znaczenie dla każdego, kto buduje z wykorzystaniem sztucznej inteligencji: Zarządzanie kosztami polega na danych wejściowych. W przypadku wywołań API wycenianych za token, stosunek 300:1 oznacza, że koszty są dyktowane przez kontekst, a nie odpowiedź. Ta dynamika cen dotyczy wszystkich głównych modeli. Na stronie z cenami OpenAI tokeny wyjściowe dla GPT-4.1 są 4 razy droższe niż tokeny wejściowe. Ale gdy nakłady są 300 razy większe, koszty nakładów nadal wynoszą 98% całkowitego rachunku. Opóźnienie jest funkcją rozmiaru kontekstu. Ważnym czynnikiem określającym, jak długo użytkownik czeka na odpowiedź, jest czas potrzebny modelowi na przetworzenie danych wejściowych. Na nowo definiuje wyzwanie inżynieryjne. Ta obserwacja dowodzi, że głównym wyzwaniem związanym z budowaniem za pomocą LLM nie jest tylko podpowiadanie. To inżynieria kontekstu. Krytycznym zadaniem jest zbudowanie wydajnego wyszukiwania danych i kontekstu - tworzenie potoków, które mogą znaleźć najlepsze informacje i destylować je do najmniejszego możliwego śladu tokenów. Buforowanie staje się krytyczne. Jeśli 99% tokenów znajduje się w danych wejściowych, zbudowanie solidnej warstwy buforowania dla często pobieranych dokumentów lub typowych kontekstów zapytań przechodzi od "miłego do posiadania" do podstawowego wymogu architektonicznego do tworzenia opłacalnego i skalowalnego produktu. Dla programistów oznacza to, że skupienie się na optymalizacji danych wejściowych jest krytyczną dźwignią do kontrolowania kosztów, zmniejszania opóźnień i ostatecznie budowania udanego produktu opartego na sztucznej inteligencji.
4,35K