隐形算力税:为何你的 AI 推理账单远超用户实际所需
你正在为用户从未阅读过的 Token 付费。这不是 Bug,也不是供应商的价格把戏,而是因为你的系统正按设计运行——在每次请求中触发后台推理任务。这些任务在白板上看起来很聪明,却在每次请求中烧掉了真实的预算。
这就是隐形算力税(Shadow Compute Tax):推理支出中用于推测性、过早触发或结构上保证永远不会到达用户的 AI 工作的那部分。在你的监控面板里,它几乎是隐形的——直到突然变得显眼为止,而那时它已经被默认为成本模型的一个前提假设。
隐形算力的真实面目
隐形算力并非单一现象,而是一类失效模式的总称。它们都有相同的特征:在时间 T 消耗算力,而其输出将被丢弃、替换,或根本不会被请求。
主动生成(Proactive Generation) 是最常见的形式。系统检测到用户可能会提出后 续问题,于是触发 LLM 调用来预生成答案。有时这会奏效——用户确实提问了,延迟几乎为零。但更多时候,用户做了别的事,或者提出了稍有不同的问题,预生成的文本就被扔掉了。在合理的接受率低于 70% 时,主动生成是一笔净负收益的赌注。
后台摘要(Background Summarization) 会加剧这一问题。积累对话历史的智能体系统通常会在上下文窗口快满之前触发周期性摘要任务来压缩上下文。这在操作上有其合理性,但它是按计时器或 Token 计数触发的,而非按需触发。在用户仍在活跃阅读、还有三轮对话余量的会话中,摘要照样运行——而你刚生成的那份摘要,本身也会成为下一个周期中被摘要的上下文。
提前的上下文准备(Eager Context Preparation) 发生在 RAG 管道或工具调用 Agent 在查询范围明确之前就预取文档块、执行检索或组装大型上下文窗口时。结果是你拿到了 8,000 个 Token 的检索上下文,其中 5,000 个在结构上与实际无关,因为用户的意图并非你预设的那样。
低接受率下的投机解码(Speculative Decoding at Wrong Acceptance Rate) 是一个更微妙的问题。投机解码本身是有效的——小型草稿模型生成候选 Token,由更大的目标模型在一次前向传递中完成验证,对于可预测的输出可实现 2–3 倍的吞吐量提升。但当接受率低于 50% 时,草稿加验证的成本就超过了直接运行大模型的成本。创意写作任务的接受率通常在 0.5–0.65 之间。不加任务校准、普遍使用投机解码的系统,会在每个被拒绝的 Token 上支付草稿模型的额外开销。
问题的规模
企业级 LLM API 支出在 2024 年底至 2025 年中大约翻了一番,从约 35 亿美元增长到 84 亿美元。这一增长轨迹有一部分是合理的——更多功能、更多用户——但其中相当一部分是浪费,并且因为没有人直接衡量它而不断累积。
最清晰的证据来自团队真正审计其推理用量后发现的结果:将简单查询路由到较小模型、将昂贵的前沿模型保留给复杂推理,可将成本削减高达 85%(伯克利,2024年);语义缓存可消除高达 73% 的冗余 API 调用;Anthropic 的前缀缓存在正确实施的情况下,可将长 Prompt 的输入 Token 成本降低 90%。这些数字并非边际改善,而是表明对许多团队来说,推理支出的大部分与所交付的价值并不成比例。
智能体系统中的扇出(Fan-out)问题使情况更糟。在多智能体工作流中,单个用户动作在考虑策略、重试、裁判、改进循环和回退链之后,可能触发 15–40 次 LLM 调用。这些调用单独来看大多都是合理的,系统在做它被设计好要做的事。但任何给定用户结果的成本收益比很少被衡量,而且往往很糟糕。
长时间运行的 Agent 还存在特有的轨迹累积问题。工具调用输出、中间结果和之前的助手轮次会在上下文窗口中积累,直到任务完成才清除。据部分测量,生产智能体系统处理的 Token 中,高达 99% 是输入历史 Token——模型每一步都要重新读取的上下文——而只有 1% 是新生成的。你在每一轮都为重新阅读自己的聊天记录付费。
在浪费找上你之前先衡量它
核心指标是每次成功用户结果的成本,而非每个 Token 的成本。这听起来理所当然,但大多数团队优化的是每 Token 成本,因为这是 API 账单上显示的内容。每次用户结果的成本需要对从推理调用到实际用户交互的完整路径进行埋点。
从三个不需要深度埋点的代理指标开始:
缓存命中率。 对于启用了 Prompt 缓存的系统,命中率低于 50% 表明存在结构性问题。缓存 Token 在大多数供应商上的成本约为未缓存 Token 的十分之一。通过精心设计的 Prompt 前缀,最优秀的智能体系统可以达到 85–87% 的缓存命中率。如果你远低于这个水平,那么你支出的很大一部分都用于了冗余计算。
- https://www.cloudzero.com/blog/inference-cost/
- https://leanlm.ai/blog/llm-cost-optimization
- https://blog.premai.io/speculative-decoding-2-3x-faster-llm-inference-2026/
- https://www.tensormesh.ai/blog-posts/agent-skills-caching-cacheblend-llm-cache-hit-rates
- https://arxiv.org/html/2509.23586v2
- https://introl.com/blog/prompt-caching-infrastructure-llm-cost-latency-reduction-guide-2025
- https://arxiv.org/pdf/2509.21361
- https://openreview.net/pdf?id=n4V3MSqK77
- https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/
- https://www.zenml.io/blog/what-1200-production-deployments-reveal-about-llmops-in-2025
- https://arxiv.org/html/2604.25724
- https://eval.16x.engineer/blog/llm-context-management-guide
