跳到主要内容

17 篇博文 含有标签「llm-cost」

查看所有标签

小费罐问题:当 5% 的用户消耗了 80% 的推理预算时

· 阅读需 14 分钟
Tian Pan
Software Engineer

一位开发者在每月 200 美元的套餐下跑出了超过 35,000 美元的计算费用。这是对单一用户 175 倍的补贴——由那些本可以愉快地使用 19 美元档位的普通大众买单。这是每一个“为什么本季度我们的 AI 毛利率是负的?” Slack 讨论串背后支撑的数学逻辑。问题不在于那一个用户;而在于那一类用户的长尾效应遵循幂律分布,而幂律分布加上固定费率计费,再加上真实的单位成本,构成了一个任何增长都无法修复的结构性毛利压缩器。

当这种情况出现在财务审查中时,下意识的反应就是收紧:严格的 Token 上限、埋在服务条款(TOS)里的“公平使用”措辞、每周限流、为免费层级悄悄降级模型。这些手段在止损方面确实有效。但它们也会疏远你所依赖的那些布道者用户,因为触及上限的人正是那些真正搞清楚了如何从你的产品中提取价值的人。标准的做法是向错误的群体致以一份向后兼容的道歉。

取消税:用户点击停止后的推理账单

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的停止按钮是个谎言。当用户点击它时,你的 UI 停止渲染 Token;但在大多数配置下,你的供应商仍在继续生成它们。这些字节从未到达浏览器,但却出现在你的发票上。用户看到的与你支付的之间的差距就是“取消税”(cancellation tax),它是 AI 成本仪表盘上被低估最严重的支出项。

取消税的存在是由结构性原因导致的。自回归推理是一个受 GPU 限制的流水线:当你的客户端关闭 TCP 连接时,模型已经排好队、完成了 KV 缓存,并正以每秒 30–200 个 Token 的速度输出。大多数推理服务栈在 Token 之间不会检查客户端的活跃状态。它们完成任务,记录用量,然后向你收费。客户端看到了 10 个 Token,而日志记录了 800 个。Langfuse、Datadog 以及所有其他观测平台都会忠实地报告这 800 个 Token,因为那是供应商 usage 数据块报告的内容。

模型账单仅占你推理成本的 30%

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家中型 AI 公司的财务负责人在上个季度告诉我,他们通过将 Agent 骨干模型从 Sonnet 切换到 Haiku,“优化了他们的 LLM 支出”。Token 账单下降了 22%,而每个已解决工单的总推理成本仅下降了 4%。当我们进行完整的成本拆解时发现,模型这一项支出大约仅占单次请求成本的三分之一。检索、重排序(reranking)、可观测性、重试放大以及人工介入(human-in-the-loop)审核队列吃掉了剩下的部分——而且当你更换模型时,这些环节都没有变得更便宜。

这是我目前在 AI 团队中看到的最常见的财务核算错误。Token 成本是你每月支付的发票上的分项,因此它成了每个人都在优化的数字。但对于任何非平凡的生产系统——RAG、Agent、任何带有工具调用或评估门控的系统——模型推理往往只占实际单位经济效益的 30% 到 50%。剩下的部分隐藏在你的工程仪表盘不会显示、且财务团队不会将其归类为 “AI 支出”的地方。

规划税:为什么你的智能体把更多 Token 花在思考上而非执行上

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的智能体刚刚花了 6完成了一项直接API调用只需6 完成了一项直接 API 调用只需 0.12 就能处理的任务。如果你在生产环境中构建过智能体系统,这个比例大概不会让你感到惊讶。真正令人意外的,是那些 token 究竟去了哪里:不是工具调用,不是生成最终答案,而是智能体在推理下一步该做什么。分解任务、反思中间结果、在观察结果与预期不符时重新规划。这就是规划税——智能体在行动之前用于思考的 token 开销——对于大多数智能体架构而言,它在第一个有效动作触发之前就已消耗掉总 token 预算的 40–70%。

规划税本身并不是 bug。推理能力正是将智能体与简单的提示-响应系统区分开来的关键。但当决定做什么的成本超过实际去做的成本时,你面对的就是一个工程问题,再便宜的推理也无法解决它。自 2022 年底以来,每 token 价格已下降约 1,000 倍,然而智能体的总体支出仍在持续攀升——这是一个典型的杰文斯悖论:更便宜的 token 只会催生更多的 token 消耗。

智能体循环中的推理模型溢价:何时“思考”值得,何时不值得

· 阅读需 12 分钟
Tian Pan
Software Engineer

在为你的智能体(agent)采用推理模型之前,有一个数字值得你深思:对于一个标准的快速模型,单次查询仅需 7 个 token,但在 Claude extended thinking 中则需要 255 个 token,而在配置激进的推理模型中更是高达 603 个 token。对于孤立的聊天机器人查询来说,这还是可以接受的。但在一个每项任务调用模型 12 次的智能体循环中,你支付的不只是 10 倍的溢价 —— 而是 10 倍溢价乘以 12,并且随着每一轮重新喂入不断增长的上下文窗口,成本还会进一步复现。账单带来的“惊喜”扼杀智能体项目的速度往往比准确性问题还要快。

问题不在于推理模型是否更好。在处理困难任务时,它们显然更出色。问题在于,推理模型是否更适合你的特定工作负载,是否更适合你在智能体循环中的特定位置,以及其提升的幅度是否足以抵消成本。大多数团队在这两个方向上都做出了错误的回答 —— 他们要么统一采用推理模型(在不需要它们的任务上浪费预算),要么完全避开它们(错失了在需要它们的任务上提升准确性的机会)。