Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Хороші дані вказують на важливість "контекстної інженерії": Вхідні токени можуть бути дешевшими, ніж вихідні токени, але важкі для контексту завдання (наприклад, кодування) можуть вимагати в 300-400 разів більше вхідних токенів контексту, ніж вихідні токени, що становить 98% від загальних витрат на використання LLM. Затримка також зростає зі збільшенням розміру контексту. Підкреслює важливість надання правильного контексту в потрібний час при створенні додатків штучного інтелекту і, я припускаю, залишає багато місця для конкурентної диференціації в SaaS-додатках, орієнтованих на штучний інтелект.

Коли ви робите запит до штучного інтелекту, він збирає відповідну інформацію, щоб відповісти вам. Але, скільки інформації потрібно моделі? Бесіди з практикуючими виявили їхню інтуїцію: вхідні дані були в ~20 разів більшими за вихідні. Але мої експерименти з інтерфейсом командного рядка інструменту Gemini, який виводить детальну статистику токенів, показали його набагато вище. В середньому 300x і до 4000x. Ось чому таке високе співвідношення входу та виводу має значення для тих, хто будує зі штучним інтелектом: Управління витратами полягає в управлінні ресурсами. Оскільки виклики API оцінюються за токен, співвідношення 300:1 означає, що витрати диктуються контекстом, а не відповіддю. Така динаміка ціноутворення справедлива для всіх основних моделей. На сторінці цін OpenAI вихідні токени для GPT-4.1 у 4 рази дорожчі, ніж вхідні токени. Але коли вхідні дані в 300 разів об'ємніші, вхідні витрати все одно становлять 98% від загального рахунку. Затримка – це функція розміру контексту. Важливим фактором, що визначає, як довго користувач чекає на відповідь, є час, за який модель обробляє вхідні дані. Він по-новому визначає інженерну проблему. Це спостереження доводить, що основна проблема створення за допомогою LLM полягає не лише в підказках. Це контекст-інжиніринг. Критично важливим завданням є створення ефективного пошуку даних і контексту - створення конвеєрів, які можуть знаходити найкращу інформацію та перетворювати її на найменший можливий слід токена. Кешування стає критично важливим. Якщо 99% токенів знаходяться на вході, створення надійного шару кешування для документів, що часто отримуються, або поширених контекстів запитів переходить від «приємного мати» до основної архітектурної вимоги для створення економічно ефективного та масштабованого продукту. Для розробників це означає, що зосередження уваги на оптимізації введення є критично важливим важелем для контролю витрат, зменшення затримки та, зрештою, створення успішного продукту на основі штучного інтелекту.

1,58K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги