模型账单仅占你推理成本的 30%
一家中型 AI 公司的财务负责人在上个季度告诉我,他们通过将 Agent 骨干模型从 Sonnet 切换到 Haiku,“优化了他们的 LLM 支出”。Token 账单下降了 22%,而每个已解决工单的总推理成本仅下降了 4%。当我们进行完整的成本拆解时发现,模型这一项支出大约仅占单次请求成本的三分之一。检索、重排序(reranking)、可观测性、重试放大以及人工介入(human-in-the-loop)审核队列吃掉了剩下的部分——而且当你更换模型时,这些环节都没有变得更便宜。
这是我目前在 AI 团队中看到的最常见的财务核算错误。Token 成本是你每月支付的发票上的分项,因此它成了每个人都在优化的数字。但对于任何非平凡的生产系统——RAG、Agent、任何带有工具调用或评估门控的系统——模型推理往往只占实际单位经济效益的 30% 到 50%。剩下的部分隐藏在你的工程仪表盘不会显示、且财务团队不会将其归类为 “AI 支出”的地方。
