团队间的 Token 预算之战:当你的 AI 平台团队变成“财政部”
负责构建你公司内部 LLM 网关的团队最初将其范围设定为“限流和审计”。十八个月后,同一个团队正在主持季度分配会议,调解两个产品组之间的配额纠纷,并发现他们为解决容量问题而交付的架构,现在充当着公司内部的 AI 财务部。没有人授权他们担任这个角色,但也没有人把它从他们的职责中拿走。
这是每个 AI 平台团队都在经历的发展轨迹,大多数团队在拥有政策、赞助人、甚至拥有足以支撑决策的遥测数据之前,就已进入了“政治经济阶段”。技术工作——请求路由、密钥管理、重试——是简单的部分。困难的部分在于,有限的供应商配额加上三个有上线期限的产品团队,就构成了一个预算分配系统,而运行网关的团队正是那个被要求进行分配的角色。
导致危机的三团队模式
一 旦供应商的限流(Rate Limit)从理论变为现实的约束,这种模式在各组织中几乎以相同的方式出现。
A 团队发布了一个具有激进扇出(Fan-out)特性的功能——一个研究型智能体,它在每个用户查询中都会发出十几个工具调用,每个调用都由检索步骤支撑并重新提示(Re-prompt)。该功能运行良好,流量飙升,在一个季度内,A 团队就消耗了每日 Token 预算的 60%。B 团队之前在其份额内运行得非常顺畅,但现在其提示词在高峰时段开始遇到 429 错误,导致面向用户的延迟退化,并最终上升到领导层层面。C 团队观察到了这一幕并吸取了教训:下个季度提交一份虚高的预测,这样你就有可以防守的余量。
平台团队——本以为是在解决技术容量问题——现在成了内部政治经济的仲裁者,却没有任何授权。之前在共享基础设施上合作的团队,现在开始将配额请求视为零和博弈。平台团队的第一直觉是保持中立和“公平”,但这几乎立即就会失败,因为没有书面政策的公平只不过是一系列零散的决策,这些决策累积成了没人能说清的先例。
宏观数据揭示了为什么这是普遍现象而非个别情况。五分之一的组织对 AI 支出的预测误差超过 50%,而 AI 原生公司是受影响最严重的——其中 36% 的预测误差达到 50% 或更高。65% 的 IT 领导者报告了来自按需付费(Consumption-based)AI 定价的意外费用,实际成本比初始估算高出 30-50%。84% 的公司报告称,AI 成本导致毛利率下降了 6% 或更多,近四分之一的公司报告的降幅超过 16%。宏观层面的预测失败导致了团队层面的资源稀缺,而团队层面的稀缺正是产生推给平台团队处理的政治纠纷的原因。
