跳到主要内容

1 篇博文 含有标签「token-optimization」

查看所有标签

隐藏的 Token 税:在用户开口之前,你的上下文窗口为何已消失了 30-60%

· 阅读需 10 分钟
Tian Pan
Software Engineer

你在为一个 200K token 的上下文窗口付费。你的用户可能只用到了其中的 80K。剩下的部分在第一条消息到达之前就消失了——被系统提示词(system prompt)、工具定义、安全前言和聊天历史填充所消耗。这就是隐藏的 Token 税,大多数团队直到在生产环境中达到上下文限制时才意识到自己在为此付税。

宣传的上下文窗口与实际可用的上下文窗口之间的差距是生产级 LLM 系统中最昂贵的盲点之一。它在多轮对话中不断累积,通过注意力开销增加延迟,并在有用信息被挤入模型停止关注的“迷失在中间”(lost in the middle)区域时,悄无声息地降低输出质量。