热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
关于“上下文工程”重要性的良好数据点:
输入令牌可能比输出令牌便宜,但上下文繁重的任务(如编码)可能需要比输出令牌多 300-400 倍的上下文输入令牌,使上下文占 LLM 总使用成本的 98%。
延迟也会随着上下文大小的增加而增加。
强调了在构建 AI 应用程序时在正确的时间提供正确的上下文的重要性,并且我认为,这为 AI 导航 SaaS 应用程序的竞争差异化留下了很大的空间。

2025年7月9日
当你查询AI时,它会收集相关信息来回答你。
但是,模型需要多少信息呢?
与从业者的对话揭示了他们的直觉:输入大约是输出的20倍。
但我使用Gemini工具命令行界面进行的实验显示,这个比例要高得多。
平均300倍,最高可达4000倍。
以下是这个高输入与输出比率对任何与AI构建相关的人来说的重要性:
成本管理完全取决于输入。由于API调用按令牌计费,300:1的比例意味着成本由上下文决定,而不是答案。这个定价动态在所有主要模型中都适用。
在OpenAI的定价页面上,GPT-4.1的输出令牌价格是输入令牌的4倍。但当输入的体量是300倍时,输入成本仍占总账单的98%。
延迟是上下文大小的函数。决定用户等待答案时间的重要因素是模型处理输入所需的时间。
它重新定义了工程挑战。这一观察证明,使用LLM构建的核心挑战不仅仅是提示,而是上下文工程。
关键任务是构建高效的数据检索和上下文——设计能够找到最佳信息并将其提炼成尽可能小的令牌足迹的管道。
缓存变得至关重要。如果99%的令牌在输入中,为频繁检索的文档或常见查询上下文构建一个强大的缓存层,从“可有可无”变成了构建一个具有成本效益和可扩展产品的核心架构要求。
对于开发者来说,这意味着关注输入优化是控制成本、减少延迟以及最终构建成功的AI驱动产品的关键杠杆。




1.58K
热门
排行
收藏