你的 LLM 账单只占 Agent COGS 的一半 —— 另一半是无人监控的部分
当财务团队第一次要求 AI 产品团队预测单位经济效益(unit economics)时,对话往往如出一辙。团队打开推理仪表盘,指着每月的 token 支出说:“这就是我们的销售成本(COGS)。”CFO 乘以预估业务量,在图表上画出一条线,并询问毛利率曲线何时能跨过 70%。六周后,当实际损益表(P&L)出炉时,仪表盘上的推理数字是正确的,但毛利率却比预测低了 20 个百分点。没人撒谎。推理费用其实只占 Agent 实际成本的一半。
另一半成本分散在 AI 团队中无人负责的各个分项中。向量数据库的账单在悄无声息地增长,因为检索量随使用量增加,而重新索引的成本计入了计算费用,而非存储费用。可观测性平台的发票则从平台团队的预算中支出。嵌入重构(Embedding regeneration)表现为 CI 成本。遥测数据存储被归入数据仓库。人工审核则计入客户成功(customer-success)的人员成本。这些项目单独看都不起眼 —— 这正是为什么整合后的数字会让所有人大吃一惊。
这是 Agent 系统核心的 FinOps 问题。一个 AI 功能的成本是由七八个成本面组成的,每个面由不同团队负责,每个面按不同 KPI 衡量,且都在孤立地进行优化。发布该功能的团队只负责其中的一两个面。而负责最大成本面的团队,往往是最后一个才知道自己负责的部分是最大的。
没人画过的 COGS 拆解图
提取一个已解决的任务 —— 比如由 Agent 关闭的客户支持工单、由内部 Copilot 标记的合同条款,或者由编程 Agent 提议并合并的代码更改 —— 并尝试归因其实际的美元成本。其分项明细大致如下,比例因产品而异,但结构是一致的:
- 基础模型推理 (Foundation model inference)。仪表盘上的账单。对于 Agent 工作负载,它包括规划器调用、工具参数生成、结构化输出重试以及最终响应合成。行业估计这占 Agent 总 COGS 的 40–60%,而非 100%。
- 检索端的嵌入推理 (Retrieval-side embedding inference)。录入的每份文档都需要嵌入。在许多架构中,每个查询也需要实时嵌入。嵌入提供商的账单可能与向量数据库本身的账单持平甚至更高,具体取决于数据更新频率。
- 向量数据库查询与存储 (Vector database queries and storage)。在小规模时,这只是四舍五入的误差。在拥有超过 1 亿个向量且具备持续查询吞吐量的情况下,它的成本是自托管方案的 3–5 倍,也是董事会报告中“增长速度比预期快 4 倍”的那个项目。
- 工具调用 API 成本 (Tool-call API costs)。Agent 调用的每个工具要么是付费第三方 API,要么是在某人基础设施上运行的内部服务,或者两者兼有。一个涉及搜索、日历、CRM 和支付 API 的单次 Agent 轮次,背后对应着四张发票。
- 结构化输出重试计算 (Structured-output retry compute)。当工具参数格式错误或 schema 无效时,循环会重试。每次重试都是一次完整的推理调用,通常还会附加失败上下文。在 Agent 工作流中,2–3 倍的重试率直接决定了毛利率是 40% 还是 25%。
- 遥测和追踪存储 (Telemetry and trace storage)。Agent 追踪中的每个 span 都带有系统提示词、检索到的分块以及完整的补全结果 —— 与典型 REST 追踪的亚 KB 级负载相比,每个 span 高达数十 KB。为了让可观测性账单保持在可控范围内,团队通常会将生产流量采样率降至 0.1%。
- 评测流水线重跑 (Eval-pipeline reruns)。每次模型升级、提示词更改和检索配置更改都会重跑评测套件。如果评测套件很大(理应如此),这是一笔经常性的推理费用,但它不会出现在面向用户的推理仪表盘上,因为它被归类为“工程计算”。
- 人工环节劳动力 (Human-loop labor)。审核边缘案例的审核员、标记生产追踪数据的标注员、处理异常输出的值班工程师。这表现为人员编制(headcount)而非 COGS,但它随使用量扩展,应纳入单位经济模型。
能够将 Agent COGS 拆解为这八项的团队,可以回答诸如“以当前规模,解决单个任务的边际成本是多少”以及“当规模扩大 10 倍时,哪个项目会主导我们的单次任务成本”等问题。而没做这项工作的团队,则是在根据一个只能反映功能实际成本不到一半的单一数字来预测单位经济效益。
为什么推 理账单最先“撒谎”
推理账单是最显眼的成本面,但对单位经济效益而言却是最没用的,原因有三个结构性因素:
它是按月汇总的。账单以单一数字形式呈现,有时按模型拆分,有时则不然。将该数字映射回特定功能、客户群体或任务类型需要遥测投入,而大多数团队并未对此进行投资。当你能将上个月支出的四分之一归因于某个特定功能时,支出早已产生。
它是拥有最多公开基准的项目。供应商发布每 token 的价格。新闻通讯会对比这些价格。团队对推理成本有直观感知,但对其他七个面则没有。当 CFO 问“我们能否降低成本”时,被打开的是推理仪表盘,优化也发生在团队有信心衡量的层面上。
它是杠杆作用最小的成本面。推理价格在三年内下降了约 1000 倍。通过谈判获得 15% 的推理折扣所带来的边际节省是真实的,但与以下优化带来的边际节省相比,则相形见绌:检索架构实现 60% 的缓存命中率、结构化输出 schema 将重试率从 22% 降至 3%,或者遥测采样策略保留 5% 的全负载追踪而非 100% 的截断追踪。推理优化是最容易着手的地方,但并非杠杆最大的地方。
一个团队花一个季度谈判推理折扣,而向量数据库账单却增长了 4 倍,这不叫优化 —— 这是在错误的成本面上演“优化秀”。
