推理预算委员会:Token 支出突破七位数时的治理之道
在每月 50,000 美元的水平时,你基础设施账单上的“计算 + Token”这一项只是可以忽略不计的零头。但当每月达到 5,000,000 美元时,它就是一个 CFO 级别的问题。这两个阶段之间的转变并不是渐进的——它是组织讨论模型支出方式的一种“相变”,而大多数工程组织对于随之而来的社会和政治工作都准备不足。账单依然是那简单的一行;但围绕它的对话却不再简单。
改变的是谁有资格问“为什么”。当三个产品团队共享一个 API Key 和一个预留容量时,每一个配额争论的结构都是相同的:某人正以牺牲他人的利益为代价获胜,而没有中立方来主持公道。当一个团队的发布第一次因为另一个团队上线了一个“话痨”智能体(agent)而受到限制时,整个工程组织会立刻感受到治理机构缺失带来的痛苦。在压力之下召开会议并凭空发明流程,是设计流程最糟糕的时机。
本文讨论的是拥有这些决策权的机构:推理预算委员会(Inference Budget Committee)。它的一部分职能属于财务,一部分属于平台,还有一部分属于政治。正是它将“我们应该优化 Token”变为了一项有专人负责的定期季度评审。它虽然是不起眼的产物,但却能将 AI 支出曲线趋于平缓的组织,与那些支出曲线直线上升且居高不下的组织区分开来。
为什么账单不再仅仅是一个科目
账单的构成比上面的数字更重要。到 2026 年,推理将占企业 AI 支出的约 85%——而不是训练,不是数据准备,也不是标注。一旦月支出突破七位数,推理经济学中的三个结构性事实就不再是抽象概念,而是开始决定你的路线图。
首先是智能体循环(agentic loops)的复合效应。单个用户可见的动作可以扇出为几十个 LLM 调用——规划、工具选择、检索重排序、自我验证、反思。每一次调用都是一份 Token 账单。发布智能体的产品团队并不总是知道在真实的生产轨迹中,智能体会进行多少次内部轮次,开发环境成本与生产成本之间的差距往往高达 20 倍。
其次是检索增强生成(RAG)对每个提示词(prompt)产生的潜在倍数效应。“每个请求的 Token 成本是多少”这个问题预设了一个标准答案。但事实并非如此。一个命中 30 个上下文块的新文档请求比缓存的请求成本更高,同一类型的最便宜请求与最昂贵请求之间的比例可以轻易达到 50:1。
第三是始终在线的智能——后台智能体、定时扫描、持续监控——隐藏在没有用户参与的表象下。没有人盯着这些工作负载进行压力测试。它们只是持续地消耗容量,唯一能表明出问题的信号就是账单。
这些动态中的每一个都将“LLM 成本是多少”从粗略估算变成了一个真正的预测难题。而一旦它成为了真正的预测难题,财务部门就有资格询问谁是负责人了。
共享 API Key 是一场公地悲剧
在 AI 项目的早期,一个团队从供应商那里获得一个 API Key,第二个团队会要求访问权限。平台团队默认会提供一个子密钥或包装器。当三四个团队使用同一个供应商账户时,共享密钥就成了组织中最大的无人管理的共享资源——它具有任何无人管理共享资源的所有故障模式。
供应商级别的配额适用于整个账户,而不是团队。如果一个团队不小心进入了重试循环,或者上线了一个导致提示词长度翻倍的代码回滚,所有人都会触发频率限制。从故障报警中醒来的值班人员与造成问题的团队毫无关系。不追究责任的事后剖析(blameless postmortem)变成了“我们应该更好地隔离容量”,这固然没错,但并没有改变平台团队现在成为每个产品团队事件响应瓶颈的事实。
成本分摊同样存在缺陷。供应商的发票每月送达一次,上面只有一个数字。如果不在网关层进行按团队标记,唯一的分配方式就是自我报告——也就是说,根本无法分配。财务最终只能按团队人数或上季度的使用情况进行摊派,这奖励了少报的团队,而惩罚了那些如实记录的团队。
解决方案是结构性的,而非劝诫性的。你在供应商前端部署一个内部 LLM 网关,每个请求都在 Header 中携带团队标识符,网关执行每个团队每分钟 Token 数(TPM)的限制,而分摊报告则是一个数据库查询,而不是一场辩论。像 LiteLLM 这样的开源项目,以及来自 Portkey、TrueFoundry 和 Kong 的商业网关,都大致收敛到了这种形态,因为这是唯一行之有效的形态。
但网关本身只是基础设施。网关回答的是“谁使用了什么”。它并不回答“谁应该得到多少”。这第二个问题正是委员会存在的意义。
工作委员会实际上在做什么
当你建立一个管理 AI 支出的机构时,诱惑在于将其搞得像个指导委员会。每季度的会议、幻灯片、没有决策。拒绝这种做法。推理预算委员会更接近于容量规划会议,而不是战略审查,其产出是具体的:配额分配、突发窗口、异常请求和少量的常设政策。
合理的人员构成:来自每个主要消耗团队的一名工程主管,负责网关的平台团队负责人,能够权威地将 Token 成本映射到预算类别的财务合作伙伴,以及一名被授权在无需升级汇报的情况下拍板的主席。总共五到七人。规模再大,决策就会停滞;规模再小,单一团队就会主导。
该委员会拥有四个产出物:
- 容量池。 从每个供应商处购买的总预置吞吐量,每月审查。这是委员会进行分配的库存。
- https://www.finout.io/blog/finops-in-the-age-of-ai-a-cpos-guide-to-llm-workflows-rag-ai-agents-and-agentic-systems
- https://oplexa.com/ai-inference-cost-crisis-2026/
- https://www.vantage.sh/blog/finops-for-ai-token-costs
- https://medium.com/@adnanmasood/ai-finops-turning-tokens-into-outcomes-41e99a640ad2
- https://www.aretove.com/the-2026-finops-frontier-governing-llm-costs-cloud-sprawl-and-data-gravity
- https://www.stackspend.app/resources/blog/managing-llm-spend-2026-approaches-pros-cons
- https://houman377882.substack.com/p/compute-allocation-is-governance
- https://www.cloudzero.com/state-of-ai-costs/
- https://www.finops.org/wg/finops-for-ai-overview/
- https://www.alphanome.ai/post/beyond-the-token-why-the-true-measure-of-llm-value-is-the-total-cost-per-successful-outcome
- https://www.flexera.com/blog/finops/finops-for-ai-governing-the-unique-economics-of-intelligent-workloads/
- https://learn.microsoft.com/en-us/azure/foundry/openai/quotas-limits
- https://github.com/nicksangeorge/enterprise-ai-gateway
- https://portkey.ai/blog/rate-limiting-for-llm-applications/
- https://docs.litellm.ai/docs/proxy/users
- https://analyticsweek.com/inference-economics-finops-ai-roi-2026/
- https://perspectives.nvidia.com/cfo-budget-framework-ai-inference-cost-forecasting/
- https://agentgateway.dev/blog/2025-11-02-rate-limit-quota-llm/
