跳到主要内容

你的 LLM 账单只占 Agent COGS 的一半 —— 另一半是无人监控的部分

· 阅读需 11 分钟
Tian Pan
Software Engineer

当财务团队第一次要求 AI 产品团队预测单位经济效益(unit economics)时,对话往往如出一辙。团队打开推理仪表盘,指着每月的 token 支出说:“这就是我们的销售成本(COGS)。”CFO 乘以预估业务量,在图表上画出一条线,并询问毛利率曲线何时能跨过 70%。六周后,当实际损益表(P&L)出炉时,仪表盘上的推理数字是正确的,但毛利率却比预测低了 20 个百分点。没人撒谎。推理费用其实只占 Agent 实际成本的一半。

另一半成本分散在 AI 团队中无人负责的各个分项中。向量数据库的账单在悄无声息地增长,因为检索量随使用量增加,而重新索引的成本计入了计算费用,而非存储费用。可观测性平台的发票则从平台团队的预算中支出。嵌入重构(Embedding regeneration)表现为 CI 成本。遥测数据存储被归入数据仓库。人工审核则计入客户成功(customer-success)的人员成本。这些项目单独看都不起眼 —— 这正是为什么整合后的数字会让所有人大吃一惊。

这是 Agent 系统核心的 FinOps 问题。一个 AI 功能的成本是由七八个成本面组成的,每个面由不同团队负责,每个面按不同 KPI 衡量,且都在孤立地进行优化。发布该功能的团队只负责其中的一两个面。而负责最大成本面的团队,往往是最后一个才知道自己负责的部分是最大的。

没人画过的 COGS 拆解图

提取一个已解决的任务 —— 比如由 Agent 关闭的客户支持工单、由内部 Copilot 标记的合同条款,或者由编程 Agent 提议并合并的代码更改 —— 并尝试归因其实际的美元成本。其分项明细大致如下,比例因产品而异,但结构是一致的:

  • 基础模型推理 (Foundation model inference)。仪表盘上的账单。对于 Agent 工作负载,它包括规划器调用、工具参数生成、结构化输出重试以及最终响应合成。行业估计这占 Agent 总 COGS 的 40–60%,而非 100%。
  • 检索端的嵌入推理 (Retrieval-side embedding inference)。录入的每份文档都需要嵌入。在许多架构中,每个查询也需要实时嵌入。嵌入提供商的账单可能与向量数据库本身的账单持平甚至更高,具体取决于数据更新频率。
  • 向量数据库查询与存储 (Vector database queries and storage)。在小规模时,这只是四舍五入的误差。在拥有超过 1 亿个向量且具备持续查询吞吐量的情况下,它的成本是自托管方案的 3–5 倍,也是董事会报告中“增长速度比预期快 4 倍”的那个项目。
  • 工具调用 API 成本 (Tool-call API costs)。Agent 调用的每个工具要么是付费第三方 API,要么是在某人基础设施上运行的内部服务,或者两者兼有。一个涉及搜索、日历、CRM 和支付 API 的单次 Agent 轮次,背后对应着四张发票。
  • 结构化输出重试计算 (Structured-output retry compute)。当工具参数格式错误或 schema 无效时,循环会重试。每次重试都是一次完整的推理调用,通常还会附加失败上下文。在 Agent 工作流中,2–3 倍的重试率直接决定了毛利率是 40% 还是 25%。
  • 遥测和追踪存储 (Telemetry and trace storage)。Agent 追踪中的每个 span 都带有系统提示词、检索到的分块以及完整的补全结果 —— 与典型 REST 追踪的亚 KB 级负载相比,每个 span 高达数十 KB。为了让可观测性账单保持在可控范围内,团队通常会将生产流量采样率降至 0.1%。
  • 评测流水线重跑 (Eval-pipeline reruns)。每次模型升级、提示词更改和检索配置更改都会重跑评测套件。如果评测套件很大(理应如此),这是一笔经常性的推理费用,但它不会出现在面向用户的推理仪表盘上,因为它被归类为“工程计算”。
  • 人工环节劳动力 (Human-loop labor)。审核边缘案例的审核员、标记生产追踪数据的标注员、处理异常输出的值班工程师。这表现为人员编制(headcount)而非 COGS,但它随使用量扩展,应纳入单位经济模型。

能够将 Agent COGS 拆解为这八项的团队,可以回答诸如“以当前规模,解决单个任务的边际成本是多少”以及“当规模扩大 10 倍时,哪个项目会主导我们的单次任务成本”等问题。而没做这项工作的团队,则是在根据一个只能反映功能实际成本不到一半的单一数字来预测单位经济效益。

为什么推理账单最先“撒谎”

推理账单是最显眼的成本面,但对单位经济效益而言却是最没用的,原因有三个结构性因素:

它是按月汇总的。账单以单一数字形式呈现,有时按模型拆分,有时则不然。将该数字映射回特定功能、客户群体或任务类型需要遥测投入,而大多数团队并未对此进行投资。当你能将上个月支出的四分之一归因于某个特定功能时,支出早已产生。

它是拥有最多公开基准的项目。供应商发布每 token 的价格。新闻通讯会对比这些价格。团队对推理成本有直观感知,但对其他七个面则没有。当 CFO 问“我们能否降低成本”时,被打开的是推理仪表盘,优化也发生在团队有信心衡量的层面上。

它是杠杆作用最小的成本面。推理价格在三年内下降了约 1000 倍。通过谈判获得 15% 的推理折扣所带来的边际节省是真实的,但与以下优化带来的边际节省相比,则相形见绌:检索架构实现 60% 的缓存命中率、结构化输出 schema 将重试率从 22% 降至 3%,或者遥测采样策略保留 5% 的全负载追踪而非 100% 的截断追踪。推理优化是最容易着手的地方,但并非杠杆最大的地方。

一个团队花一个季度谈判推理折扣,而向量数据库账单却增长了 4 倍,这不叫优化 —— 这是在错误的成本面上演“优化秀”。

组织架构决定了杠杆的位置

Agent COGS(销货成本)中最昂贵的结构性特征在于,没有任何一个团队对这个综合指标负责。推理成本挂在平台团队的预算里。向量数据库成本属于数据基础设施团队。工具调用成本被摊派给任何使用集成服务的人。遥测存储由可观测性团队管理。评估重跑(Eval reruns)由工程计算资源消化,通常不计入特定成本。人工审核则计入客户成功或运营的人力编制。

这些团队中的每一个都针对自己的 KPI 进行优化。平台团队有推理成本削减的季度目标。数据基础设施团队的考核指标是向量数据库的 p99 延迟。可观测性团队被要求提供更长的留存时间,而不是更短。局部来看,他们都没错。但合在一起,他们产生了一个全局非最优的成本结构。

必须落地的规程是建立一个 综合 COGS 负责人 —— 这是一个单一角色,通常位于 FinOps 或产品工程部门,其 KPI 是“每项已解决任务的美元成本”,其权限涵盖所有八个成本面。如果没有这个角色,成本优化之争就会发生在错误的层面:最有能力撬动最大杠杆(如检索架构、评估复用、遥测采样)的团队没有预算压力去推动它,而承受预算压力的团队(平台团队,负责推理线路)却在优化最小的杠杆。

这就是为什么 Agent 原生 SaaS 公司的毛利率倾向于 50–60%,而传统 SaaS 则在 80–90%。这并不是因为 AI 在结构上利润较低,而是因为成本分解的方式令人陌生,组织架构是为旧的构成而建的,而综合负责人尚未入场。

一个有用的 COGS 仪表盘长什么样

一个值得构建的单位经济模型仪表盘,每一行代表一个成本面,两列分别代表当前量级和 10 倍量级下的预测值,并推导出一个最终结果:每项已解决任务的成本。成本面就是上面列出的八项。“已解决的任务”是指你的产品视为价值单位的任何东西:关闭的服务工单、生成的报告、合并的 PR、成功的结账辅助。

这个仪表盘的几个特性至关重要:

  • 它是基于功能的,而不是基于产品的。使用相同模型的两个功能可能具有截然不同的 COGS 结构,因为一个是检索密集型的,而另一个是工具密集型的。将它们聚合在一起会掩盖杠杆所在。
  • 它是**基于群组(Cohort)**的,至少在高级客户层面。每个会话运行 200 轮的客户与运行 4 轮的客户具有不同的 COGS 概况。定价取决于对这种差异的了解。
  • 它是 10 倍量级下的预测值。今天在当前量级下的 COGS 很有趣;但在明年预测量级下的 COGS 才是能在预算周期中存活下来的数字。最大的预测偏差通常来自那些今天呈亚线性增长但在规模化后呈超线性增长的项目 —— 例如持续查询负载下的向量数据库计算、有留存要求的遥测存储、以及当简单自动化层达到饱和后的人工审核劳动力。
  • 它是每项已解决任务的成本,而不是每次调用的成本。Intercom 的 Fin(按解决量计费)和 Zendesk(按解决案例计费)的定价模式正向基于结果的单位收敛,因为这才是客户真正关心的单位。COGS 仪表盘应该与定价仪表盘匹配,否则单位经济模型永远无法闭环。

构建了这种仪表盘的团队通常会在一个季度内发现,他们最大的优化杠杆位于他们之前没有关注的地方 —— 通常是检索缓存命中率、结构化输出重试率或遥测采样 —— 而他们一直在重新谈判的推理账单其实是第三或第四个杠杆,而不是第一个。

架构视角

在完成 COGS 分解练习后,你会意识到 AI 功能的成本结构是一个系统设计问题,而不是一个模型定价问题。杠杆不在于“哪家供应商的单 Token 价格最便宜”,而在于“在预期达到的量级下,哪种架构能使每项已解决任务的总合成成本最低”。

该架构拥有团队可以控制的旋钮:检索前缓存、生成前检索、验证前结构化输出、存储前采样、人工审核前的自动化层级。每个旋钮都对应一个成本面。拥有综合指标的团队会首先调节正确的旋钮;而没有这种意识的团队则会调节容易调节的旋钮,并对数字没有变化感到惊讶。

能在年底通过财务审查的预测,是那些 COGS 仪表盘上的每个细分项目都有人负责、经过埋点监控并按预测量级建模的预测。除此之外的任何做法,都只是在讲述一个单位经济故事,而财务团队会在下个季度悄悄拆穿它 —— 届时 AI 团队会(准确地)抱怨说,没人告诉他们该拉动哪个杠杆。

References:Let's stay in touch and Follow me for more thoughts and updates