跳到主要内容

2 篇博文 含有标签「context-window」

查看所有标签

隐藏的 Token 税:开销如何悄然榨干你的 LLM 上下文窗口

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数团队都知道自己的用户发送了多少个 Token。但几乎没人知道,在用户开口说话之前,他们已经花掉了多少个 Token。

在一个典型的生产级 LLM 流水线中,系统提示词(system prompt)、工具 Schema、聊天历史、安全前导词和 RAG 前置上下文会在真正的用户请求到达之前,悄无声息地消耗掉你 30-60% 的上下文窗口。对于注册了几十个工具的 Agent 系统而言,仅工具定义的开销就可能占据一个 128k 窗口的 45% —— 大约 55,000 个 Token —— 而其中许多工具可能永远不会被调用。

这就是隐藏的 Token 税:它抬高了成本,拉长了延迟,削弱了模型的注意力 —— 而所有这些在任何面向用户的指标中都看不到。

隐藏的 Token 税:在用户开口之前,你的上下文窗口为何已消失了 30-60%

· 阅读需 10 分钟
Tian Pan
Software Engineer

你在为一个 200K token 的上下文窗口付费。你的用户可能只用到了其中的 80K。剩下的部分在第一条消息到达之前就消失了——被系统提示词(system prompt)、工具定义、安全前言和聊天历史填充所消耗。这就是隐藏的 Token 税,大多数团队直到在生产环境中达到上下文限制时才意识到自己在为此付税。

宣传的上下文窗口与实际可用的上下文窗口之间的差距是生产级 LLM 系统中最昂贵的盲点之一。它在多轮对话中不断累积,通过注意力开销增加延迟,并在有用信息被挤入模型停止关注的“迷失在中间”(lost in the middle)区域时,悄无声息地降低输出质量。