隐藏的 Token 税:开销如何悄然榨干你的 LLM 上下文窗口
· 阅读需 11 分钟
大多数团队都知道自己的用户发送了多少个 Token。但几乎没人知道,在用户开口说话之前,他们已经花掉了多少个 Token。
在一个典型的生产级 LLM 流水线中,系统提示词(system prompt)、工具 Schema、聊天历史、安全前导词和 RAG 前置上下文会在真正的用户请求到达之前,悄无声息地消耗掉你 30-60% 的上下文窗口。对于注册了几十个工具的 Agent 系统而言,仅工具定义的开销就可能占据一个 128k 窗口的 45% —— 大约 55,000 个 Token —— 而其中许多工具可能永远不会被调用。
这就是隐藏的 Token 税:它抬高了成本,拉长了延迟,削弱了模型的注意力 —— 而所有这些在任何面向用户的指标中都看不到。
