推理预算委员会：Token 支出突破七位数时的治理之道

2026年4月26日 · 阅读需 13 分钟

Software Engineer

在每月 50,000 美元的水平时，你基础设施账单上的“计算 + Token”这一项只是可以忽略不计的零头。但当每月达到 5,000,000 美元时，它就是一个 CFO 级别的问题。这两个阶段之间的转变并不是渐进的——它是组织讨论模型支出方式的一种“相变”，而大多数工程组织对于随之而来的社会和政治工作都准备不足。账单依然是那简单的一行；但围绕它的对话却不再简单。

改变的是谁有资格问“为什么”。当三个产品团队共享一个 API Key 和一个预留容量时，每一个配额争论的结构都是相同的：某人正以牺牲他人的利益为代价获胜，而没有中立方来主持公道。当一个团队的发布第一次因为另一个团队上线了一个“话痨”智能体（agent）而受到限制时，整个工程组织会立刻感受到治理机构缺失带来的痛苦。在压力之下召开会议并凭空发明流程，是设计流程最糟糕的时机。

本文讨论的是拥有这些决策权的机构：推理预算委员会（Inference Budget Committee）。它的一部分职能属于财务，一部分属于平台，还有一部分属于政治。正是它将“我们应该优化 Token”变为了一项有专人负责的定期季度评审。它虽然是不起眼的产物，但却能将 AI 支出曲线趋于平缓的组织，与那些支出曲线直线上升且居高不下的组织区分开来。

为什么账单不再仅仅是一个科目

账单的构成比上面的数字更重要。到 2026 年，推理将占企业 AI 支出的约 85%——而不是训练，不是数据准备，也不是标注。一旦月支出突破七位数，推理经济学中的三个结构性事实就不再是抽象概念，而是开始决定你的路线图。

首先是智能体循环（agentic loops）的复合效应。单个用户可见的动作可以扇出为几十个 LLM 调用——规划、工具选择、检索重排序、自我验证、反思。每一次调用都是一份 Token 账单。发布智能体的产品团队并不总是知道在真实的生产轨迹中，智能体会进行多少次内部轮次，开发环境成本与生产成本之间的差距往往高达 20 倍。

其次是检索增强生成（RAG）对每个提示词（prompt）产生的潜在倍数效应。“每个请求的 Token 成本是多少”这个问题预设了一个标准答案。但事实并非如此。一个命中 30 个上下文块的新文档请求比缓存的请求成本更高，同一类型的最便宜请求与最昂贵请求之间的比例可以轻易达到 50:1。

第三是始终在线的智能——后台智能体、定时扫描、持续监控——隐藏在没有用户参与的表象下。没有人盯着这些工作负载进行压力测试。它们只是持续地消耗容量，唯一能表明出问题的信号就是账单。

这些动态中的每一个都将“LLM 成本是多少”从粗略估算变成了一个真正的预测难题。而一旦它成为了真正的预测难题，财务部门就有资格询问谁是负责人了。

共享 API Key 是一场公地悲剧

在 AI 项目的早期，一个团队从供应商那里获得一个 API Key，第二个团队会要求访问权限。平台团队默认会提供一个子密钥或包装器。当三四个团队使用同一个供应商账户时，共享密钥就成了组织中最大的无人管理的共享资源——它具有任何无人管理共享资源的所有故障模式。

供应商级别的配额适用于整个账户，而不是团队。如果一个团队不小心进入了重试循环，或者上线了一个导致提示词长度翻倍的代码回滚，所有人都会触发频率限制。从故障报警中醒来的值班人员与造成问题的团队毫无关系。不追究责任的事后剖析（blameless postmortem）变成了“我们应该更好地隔离容量”，这固然没错，但并没有改变平台团队现在成为每个产品团队事件响应瓶颈的事实。

成本分摊同样存在缺陷。供应商的发票每月送达一次，上面只有一个数字。如果不在网关层进行按团队标记，唯一的分配方式就是自我报告——也就是说，根本无法分配。财务最终只能按团队人数或上季度的使用情况进行摊派，这奖励了少报的团队，而惩罚了那些如实记录的团队。

解决方案是结构性的，而非劝诫性的。你在供应商前端部署一个内部 LLM 网关，每个请求都在 Header 中携带团队标识符，网关执行每个团队每分钟 Token 数（TPM）的限制，而分摊报告则是一个数据库查询，而不是一场辩论。像 LiteLLM 这样的开源项目，以及来自 Portkey、TrueFoundry 和 Kong 的商业网关，都大致收敛到了这种形态，因为这是唯一行之有效的形态。

但网关本身只是基础设施。网关回答的是“谁使用了什么”。它并不回答“谁应该得到多少”。这第二个问题正是委员会存在的意义。

工作委员会实际上在做什么

当你建立一个管理 AI 支出的机构时，诱惑在于将其搞得像个指导委员会。每季度的会议、幻灯片、没有决策。拒绝这种做法。推理预算委员会更接近于容量规划会议，而不是战略审查，其产出是具体的：配额分配、突发窗口、异常请求和少量的常设政策。

合理的人员构成：来自每个主要消耗团队的一名工程主管，负责网关的平台团队负责人，能够权威地将 Token 成本映射到预算类别的财务合作伙伴，以及一名被授权在无需升级汇报的情况下拍板的主席。总共五到七人。规模再大，决策就会停滞；规模再小，单一团队就会主导。

该委员会拥有四个产出物：

容量池。 从每个供应商处购买的总预置吞吐量，每月审查。这是委员会进行分配的库存。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

推理预算委员会：Token 支出突破七位数时的治理之道

为什么账单不再仅仅是一个科目

共享 API Key 是一场公地悲剧

工作委员会实际上在做什么

Recommended Reading

关于 Tian Pan

为什么账单不再仅仅是一个科目​

共享 API Key 是一场公地悲剧​

工作委员会实际上在做什么​

Recommended Reading

关于 Tian Pan

为什么账单不再仅仅是一个科目

共享 API Key 是一场公地悲剧

工作委员会实际上在做什么