跳到主要内容

团队间的 Token 预算之战:当你的 AI 平台团队变成“财政部”

· 阅读需 12 分钟
Tian Pan
Software Engineer

负责构建你公司内部 LLM 网关的团队最初将其范围设定为“限流和审计”。十八个月后,同一个团队正在主持季度分配会议,调解两个产品组之间的配额纠纷,并发现他们为解决容量问题而交付的架构,现在充当着公司内部的 AI 财务部。没有人授权他们担任这个角色,但也没有人把它从他们的职责中拿走。

这是每个 AI 平台团队都在经历的发展轨迹,大多数团队在拥有政策、赞助人、甚至拥有足以支撑决策的遥测数据之前,就已进入了“政治经济阶段”。技术工作——请求路由、密钥管理、重试——是简单的部分。困难的部分在于,有限的供应商配额加上三个有上线期限的产品团队,就构成了一个预算分配系统,而运行网关的团队正是那个被要求进行分配的角色。

导致危机的三团队模式

一旦供应商的限流(Rate Limit)从理论变为现实的约束,这种模式在各组织中几乎以相同的方式出现。

A 团队发布了一个具有激进扇出(Fan-out)特性的功能——一个研究型智能体,它在每个用户查询中都会发出十几个工具调用,每个调用都由检索步骤支撑并重新提示(Re-prompt)。该功能运行良好,流量飙升,在一个季度内,A 团队就消耗了每日 Token 预算的 60%。B 团队之前在其份额内运行得非常顺畅,但现在其提示词在高峰时段开始遇到 429 错误,导致面向用户的延迟退化,并最终上升到领导层层面。C 团队观察到了这一幕并吸取了教训:下个季度提交一份虚高的预测,这样你就有可以防守的余量。

平台团队——本以为是在解决技术容量问题——现在成了内部政治经济的仲裁者,却没有任何授权。之前在共享基础设施上合作的团队,现在开始将配额请求视为零和博弈。平台团队的第一直觉是保持中立和“公平”,但这几乎立即就会失败,因为没有书面政策的公平只不过是一系列零散的决策,这些决策累积成了没人能说清的先例。

宏观数据揭示了为什么这是普遍现象而非个别情况。五分之一的组织对 AI 支出的预测误差超过 50%,而 AI 原生公司是受影响最严重的——其中 36% 的预测误差达到 50% 或更高。65% 的 IT 领导者报告了来自按需付费(Consumption-based)AI 定价的意外费用,实际成本比初始估算高出 30-50%。84% 的公司报告称,AI 成本导致毛利率下降了 6% 或更多,近四分之一的公司报告的降幅超过 16%。宏观层面的预测失败导致了团队层面的资源稀缺,而团队层面的稀缺正是产生推给平台团队处理的政治纠纷的原因。

必须落地的运营模式

一个有效的预算分配系统有四个核心组件,缺失任何一个都会导致可预见的失败。

针对每个团队的配额以及可审查的分配理由。“公平份额”听起来很中立,直到你必须在一次关乎某个团队季度 OKR 的会议上为其辩护。分配理由需要书面记录——通常是历史使用情况、承诺预测以及由领导层设定的战略优先级权重的函数——并且输入参数需要对分配受影响的团队可见。黑盒分配政策只能维持到第一次纠纷发生,随后就会崩溃,因为失去配额的团队无法质疑决定,而平台团队也无法在不诉诸高层的情况下进行辩护。

将 Token 使用成本挂钩到成本中心的计费回拨(Chargeback)机制。“费用展示”(Showback)——即让支出可见但不进行实际扣费——虽然让人感觉舒适,但不会产生行为改变。这种“可见但无后果”的问题是内部成本报告的主要失败模式:团队看到仪表盘,点点头,然后继续运行那个在每次重试时都会重新提示的 Prompt,因为没有人被要求去关注这些。计费回拨将支出变成团队预算中的一个条目,这意味着团队经理有理由去关心,也意味着 Prompt 会得到优化。这种机制在第一天不一定要是真实的内部财务流程——即使是一份发给相关财务伙伴的季度备忘录也足以改变行为——但从 Token 使用到成本中心的链接必须存在。

具有明确借用规则的突发流量池(Burst Pool)。 静态的团队配额往往在最关键的时刻失效:产品上线。一个知道下周二有营销活动的团队无法等待一个季度来进行配额谈判,而平台团队也无法在不变成“限流客服”的情况下手动批准每个突发请求。解决办法是建立一个共享的突发流量池——通常为总配额的 10–20%——任何团队都可以通过书面请求、借用限额以及活动后恢复基准的预期来提取。如果没有它,压力就会流回分配政策并破坏基准。

将预测与实际情况进行对比的预测规范。 在上述模式中的第三个团队——学会囤积配额的那个——如果你只问“你需要什么”,他们就会赢得下一轮分配。将提交的预测与上季度的实际情况进行核对,并对那些数据中显示有囤积行为的团队进行“额度削减”(Haircut),是唯一不会奖励不实预测的机制。这在操作上很简单,但在第一个周期会带来政治上的不适,因为被削减额度的团队会反击。平台团队需要在执行削减之前,而不是之后,获得高层对该政策的支持。

无人考量的政治维度

所有的技术工作都假设存在一个明确授权的政策。如果没有政策,平台团队就会通过各种决策的累积而逐渐变成政策本身。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates