Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lorsque vous interrogez l’IA, elle recueille des informations pertinentes pour vous répondre.
Mais de combien d’informations le modèle a-t-il besoin ?
Des conversations avec des praticiens ont révélé leur intuition : l’entrée était ~20x plus grande que la sortie.
Mais mes expériences avec l’interface de ligne de commande de l’outil Gemini, qui produit des statistiques détaillées sur les jetons, ont révélé qu’elle était beaucoup plus élevée.
300x en moyenne et jusqu’à 4000x.
Voici pourquoi ce rapport élevé/sortie est important pour tous ceux qui construisent avec l’IA :
La gestion des coûts est une question d’intrant. Avec des appels d’API facturés par jeton, un ratio de 300:1 signifie que les coûts sont dictés par le contexte, et non par la réponse. Cette dynamique de prix est vraie pour tous les principaux modèles.
Sur la page de tarification d’OpenAI, les jetons de sortie pour GPT-4.1 sont 4 fois plus chers que les jetons d’entrée. Mais lorsque l’intrant est 300 fois plus volumineux, les coûts des intrants représentent toujours 98 % de la facture totale.
La latence est fonction de la taille du contexte. Un facteur important déterminant le temps d’attente d’un utilisateur pour une réponse est le temps qu’il faut au modèle pour traiter l’entrée.
Il redéfinit le défi de l’ingénierie. Cette observation prouve que le principal défi de la construction avec des LLM n’est pas seulement l’incitation. C’est de l’ingénierie contextuelle.
La tâche essentielle consiste à créer une récupération de données et un contexte efficaces, en créant des pipelines capables de trouver les meilleures informations et de les distiller dans la plus petite empreinte de token possible.
La mise en cache devient critique. Si 99 % des jetons sont dans l’entrée, la création d’une couche de mise en cache robuste pour les documents fréquemment récupérés ou les contextes de requête courants passe d’un « nice to have » à une exigence architecturale de base pour la création d’un produit rentable et évolutif.
Pour les développeurs, cela signifie que se concentrer sur l’optimisation des entrées est un levier essentiel pour contrôler les coûts, réduire la latence et, en fin de compte, créer un produit réussi alimenté par l’IA.




4,35K
Meilleurs
Classement
Favoris