跳到主要内容

Token 预算是新一代的内部 IAM

· 阅读需 12 分钟
Tian Pan
Software Engineer

当你的 AI 账单月额度首次突破七位数时,预算会议的形式就会发生变化。在那之前,问题是“我们能否负担得起”。在那之后,问题变成了“谁能分到多少”——而大多数工程团队会实时发现,他们根本没有应对这一问题的政策框架。那个发布了最响亮演示的团队会意外地获得最高配额。财务部门则在推行扁平的人均上限,这让那些从事最高杠杆工作的团队陷入困境。安全部门则完全被排除在对话之外,直到有人发现评估团队过去六个月一直在通过个人 Token 额度拉取生产流量。

这种对话之所以总是感觉像是在争论云成本,是因为它确实接近云成本,但不完全是。在云端,浪费的单位是一个被遗忘的 EC2 实例,最坏的情况是账单翻三倍。而对于 Token 配额,浪费的单位是一个失控的 Agent 循环,而准入的单位则是面向用户的功能:谁掌握了预算,谁就能发布功能。后一种特性使得 Token 分配更接近基于能力的安全性(Capability-based security),而不是云 FinOps。配额不仅仅是一个支出上限。它是执行一类推理的权利。

将其视为一个财务预算细项在短期内是有效的,但终究会出问题。当一名产品经理意识到他需要向平台团队提交工单以提高每个功能的 Token 上限,从而能在周一发布演示时,配额系统就在结构上变成了授权系统——并且继承了那些本无意设计授权系统的人所设计出来的系统中的所有失效模式。

披着技术外衣的政治问题

《FinOps 现状调查》已将 AI 成本管理作为一个类别追踪了三年;在 2024 年,31% 的受访者表示正在积极管理 AI 支出,到 2026 年,这一比例将达到 98%。这种增长源于组织同时跨越了两个门槛。第一个是金额大小——2025 年平均每月 AI 预算增长了 36%,每个团队约 85,000 美元,而大型企业每月的支出已在七位数和八位数范围内。第二个门槛是波动性。推理成本确实存在一种工程组织不擅长管理的剧烈波动。工资是固定的。云支出随流量增长。而 Token 支出可能在一个季度内增长 5 倍,因为一个团队开启了一个新的 Agent 产品,而其提示词恰好比之前的提示词长了三倍。现有的任何预算管理能力都无法应对这种情况。

一旦团队跨越了这两个门槛,就会打破“配额是财务问题”的隐含假设。在那之前,平台团队通常操作一个带有全局速率限制的共享 API 密钥,观察仪表盘,并在有人进行过热实验时偶尔发送一条 Slack 消息。超过那个点后,配额就变成了产品交付速度的瓶颈资源。哪个团队拥有更多的推理预算,就能进行更多的实验、发布更多的功能并服务更多的用户。由于没人将预算系统设计为授权系统,由此产生的分配逻辑就是最简单的路径——通常是“叫得最响的团队获得最高上限,而安全部门最后才发现”。

这并非假设。“影子 AI”调查一致显示,超过 90% 的员工在工作中使用 AI 工具,但只有约 40% 的组织拥有核准的企业订阅,大多数敏感的 AI 交互都源自个人账号。在同样的调查中,三分之二的高管承认,他们对未经核准的 AI 使用感到放心,因为它能保持速度。将这两个事实放在一起看,结论令人不安:缺乏真正的分配政策并非疏忽。这是当领导层重视速度而没人负责速度与控制之间的权衡时所出现的平衡状态。

IAM 类比究竟能为你带来什么

“Token 预算是新一代内部 IAM”不仅仅是一个口号,其原因在于基于能力的安全性(Capability-based security)已经解决了 Token 预算系统现在正陷入的大多数设计问题。在经典表述中,“能力”(Capability)是一种不可伪造的授权凭证,它同时指明了资源和允许的操作。三个属性使能力系统在实践中发挥作用:不可伪造性(用户不能凭空创造能力)、可转移性(能力可以委派给子系统)、可撤销性(发行者可以收回能力)。将这些映射到推理配额上,其平行关系是完全一致的。Token 预算是不可伪造的,因为它在网关处强制执行。它是可转移的,因为子系统和 Agent 可以在授予父服务的 Token 上运行。而且它应该是可撤销的——尽管在目前的大多数设置中,它还做不到。

可以从 IAM 直接借鉴的准则是“基于授权形式的分配”。每一项授权都不是让团队根据先到先得原则提取的全局池,而是一个包含四个命名字段的政策:负责人(对支出负责的人)、范围(功能、租户、环境、实验)、更新日期(授权到期;你必须再次申请)和类别(实验流量与生产流量,它们应该在不同的政策下进行限制,因为它们的风险状况各不相同)。当你以这种形式编写配额分配时,政治对话就有了以前不具备的语境。“推荐团队每月有 4 万美元的生产流量预算, 5 千美元的实验预算,6 月 30 日到期,负责人是 Priya”——这是首席财务官和工程负责人可以实际协商的事情。而“推荐团队每月支出 4.5 万美元,你能削减一下吗”则不行。

类别区分的重要性比听起来要大。生产流量具有严格的延迟要求、可预测的 Token 形状,并根据面向用户的 SLO 进行计量。而实验流量从定义上讲是探索性的——一次糟糕的评估运行可能在一下午耗尽一个季度的配额。将它们混在一起会使容量规划和事件响应变得更加困难。当实验达到上限时,正确的做法是限制评估并呼叫人工;当生产达到上限时,正确的做法是故障开启或以不同方式发出告警,因为涉及用户流量。不区分这两者的授权模型,在某些事件中注定会以完全错误的方向失效。

谁都无法偶然避开的两种失败模式

Token 分配策略的两种自然形态即是两种失败模式。第一种是中心化卡口:平台团队掌握预算,其他所有团队都向其提交工单。这解决了可见性问题,但扼杀了实验性。平台团队在设计上就是配额变更审批最慢的地方,因为如果请求被证明是浪费的,他们要承担风险。新的产品构想死在队列中,受影响最大的往往是那些进行探索性工作最多的组织——而这恰恰是边际资助成本应该最低的工作。

第二种是去中心化信用池:每个团队持有自己的信用额度,通常是通过针对共享供应商账户的虚拟密钥。这保持了速度,但破坏了整体可见性。没有人能在不核对 N 个电子表格的情况下回答“本季度我们在 AI 上的总支出是多少”,而且答案总是比任何人预想的都要大。更糟糕的是,在去中心化的世界里,安全和合规团队没有抓手。没有一个天然的地方可以强制执行“根据合同条款 Y,严禁包含 PII 的生产流量进入供应商 X”,因为请求并没有经过一个了解这两项约束的层。

借鉴自 IAM 的出路是带有委托的层级结构。组织设定顶层预算;该预算被拆分为具有明确负责人的团队拨款;团队拨款再进一步拆分为由团队自己负责的按功能或按环境的拨款。审计和策略执行发生在网关——这一部分是不可协商的,因为它是唯一能对每个请求进行权威统计和检查的地方。但实际的分配决策是向下级联的,就像 IAM 允许项目所有者在不返回中央 IAM 管理员的情况下铸造作用域受限的服务账户一样。2026 年交付的大多数 LLM 网关——Portkey、LiteLLM、Bifrost、Kong 的 AI 网关——都已经模拟了这种层级结构的某种版本。他们没有提供的是正确使用它的组织纪律。

工具层有按钮,但组织没有策略

如果你阅读 LiteLLM 的文档,你会发现一个清晰的四级虚拟密钥层级:客户、团队、虚拟密钥、供应商,每个级别都有自己的支出上限和重置计划。如果你阅读 Portkey 的文档,你会发现相同的想法,只是词汇不同。按钮是存在的。但在大多数采用这些工具的组织中,不存在决定在这些按钮中填入什么数字的元流程。

这体现在错误追踪器中。LiteLLM 有一个未解决的问题:当虚拟密钥属于团队时,用户级预算不会被强制执行——这是一个微妙的层级漏洞,让团队只需通过团队密钥路由就能悄悄绕过个人用户上限。这个 Bug 表面上很平庸。它之所以重要,是因为提交该 Bug 的组织曾假设策略正在被执行。他们写下了用户上限。他们配置了网关。他们告诉财务团队预算已在控制之中。但这些都不是真的。这与 IAM 系统在 2010 年代初遇到的失败模式属于同一类,当时 AWS 用户发现策略实际上是一件困难且难以组合的事情,仪表盘上显示的“此用户权限有限”并不等同于该用户真的被限制了。Token 配额工具正在经历同样的成熟曲线,且在加速。

正确的应对方式不是等待网关发布完美的功能集。而是将网关视为部分执行层,并在你自己的应用程序中添加缺失的部分:为每个请求标记所属团队、功能、实验 ID 和环境;将这些标签推送到工程、财务和安全部门都能读取的费用分摊账本中;每月根据供应商发票核对账本,以便快速发现偏差;并将拨款续约流程构建为附带名称的真实工单队列,而不是被忽视的循环 Slack 消息。FinOps 基金会的 GenAI 成本与用量追踪工作组已经记录这些模式两年了,能在现实中生存下来的都是那些枯燥的部分:应用层的标签纪律、透传到账单,以及每项拨款都有明确的人工负责人。

架构上的领悟

最难内化的一点是,Token 预算不是财务行项目。它们是一个授权表面(authorization surface)。你授予的每个配额都是一种能力——持有者可以使推理以特定的速率、特定的形状、在模型将表现出的特定行为集下发生。你扣留的每个配额都是一个你阻止了发布的功能。CFO 最终会要求你拉动杠杆;如果你把杠杆设计成没有策略关联的仪表盘滑块,你会发现拉动它会破坏你甚至不知道它所关联的东西。

做得对的团队通常会做三件事。他们在组织层面指定一名推理预算负责人——通常是一位同时向工程副总裁和财务部汇报的平台工程领导者,这样政治博弈就存在于一个人的职责范围内,而不是部门间永无休止的争斗。他们使用上述 IAM 风格的字段记录拨款,并默认将未续约的拨款视为过期,就像 SRE 团队对待未续约的证书一样。而且他们很早就投资于费用分摊账本,因为一旦对话从“我们花了多少钱”转向“我们得到了多少单位产出成本”,每个团队都需要能够为自己的拨款回答这个问题,而无需财务部的介入。

如果你还处于一个共享密钥服务整个组织的世界,你还有时间。一旦你的支出跨过七位数大关,你将不再有这种从容。你在这个窗口期做出的决定——即 Token 预算是一个需要优化的财务问题,还是一个需要设计的授权表面——将决定你的 AI 组织在未来五年的作为。将后者视为己任的组织在政治博弈到来时将拥有自己的话语体系。而那些没有这样做的组织将在事故发生过程中发现,他们以为拥有的杠杆其实什么也没连着。

References:Let's stay in touch and Follow me for more thoughts and updates