Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Когда вы запрашиваете ИИ, он собирает соответствующую информацию, чтобы ответить вам.
Но сколько информации нужно модели?
Беседы с практикующими показали их интуицию: входные данные были в ~20 раз больше, чем выходные.
Но мои эксперименты с интерфейсом командной строки инструмента Gemini, который выводит подробную статистику токенов, показали ее гораздо выше.
300x в среднем и до 4000x.
Вот почему такое высокое соотношение входных и выходных данных важно для всех, кто строит с использованием искусственного интеллекта:
Управление затратами — это все о вводе данных. Поскольку вызовы API оплачиваются за токен, соотношение 300:1 означает, что затраты диктуются контекстом, а не ответом. Эта динамика ценообразования справедлива для всех основных моделей.
На странице цен OpenAI выходные токены для GPT-4.1 в 4 раза дороже, чем входные токены. Но когда ввод в 300 раз объемнее, затраты на ввод все равно составляют 98% от общего счета.
Задержка является функцией размера контекста. Важным фактором, определяющим, сколько времени пользователь ожидает ответа, является время, которое требуется модели для обработки входных данных.
Это меняет представление об инженерных задачах. Это наблюдение доказывает, что основная проблема создания с помощью LLM заключается не только в подсказках. Это контекстная инженерия.
Важнейшей задачей является построение эффективного поиска данных и контекста — создание конвейеров, которые могут находить наилучшую информацию и отбирать ее в минимально возможное пространство токена.
Кэширование становится критически важным. Если 99% токенов находятся на входе, создание надежного слоя кэширования для часто извлекаемых документов или общих контекстов запросов переходит от «приятного момента» к основному архитектурному требованию для создания экономичного и масштабируемого продукта.
Для разработчиков это означает, что сосредоточение внимания на оптимизации ввода является критически важным рычагом для контроля затрат, сокращения задержек и, в конечном итоге, создания успешного продукта на основе искусственного интеллекта.




4,35K
Топ
Рейтинг
Избранное