上下文的隐性成本:管理生产级 LLM 系统中的 Token 预算
· 阅读需 11 分钟
大多数初次发布 LLM 应用的团队都会犯同一个错误:他们将上下文窗口视为免费存储。模型支持 128K tokens?太好了,塞满它。模型支持 1M tokens?更棒了——把所有东西都扔进去。接踵而至的是在产品真正跑通前三周就提前到达的账单冲击。
上下文不是免费的。它甚至一点也不便宜。除了成本之外,盲目填充上下文窗口实际上会让你的模型变得更糟。一个精简的 300 token 上下文通常优于一个松散的 113,000 token 上下文。这不是极端情况——而是一个有明确名称的文档化失效模式:“中间迷失”(lost in the middle)。管理好上下文是你对 LLM 产品做出的最高杠杆的工程决策之一。
