跳到主要内容

1 篇博文 含有标签「token-economics」

查看所有标签

隐藏的 Token 税:系统开销如何悄无声息地耗尽你的 LLM 上下文窗口

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数团队知道他们的用户发送了多少 token。但几乎没有人知道在用户开口说话之前,他们已经支出了多少 token。

在典型的生产级 LLM 流水线中,系统提示词 (system prompts)、工具架构 (tool schemas)、聊天历史、安全前导词和 RAG 序言在实际用户查询到达之前,就默默消耗了上下文窗口的 30–60%。对于拥有数十个注册工具的智能体 (agentic) 系统,这种开销在 128k 窗口中可能达到 45% —— 约 55,000 个 token —— 而这些工具定义甚至从未被调用过。

这就是隐藏的 token 税。它虚增了成本、增加了延迟并降低了输出质量 —— 然而,它从未出现在任何面向用户的指标中。