跳到主要内容

AI 驱动的 API 产品 Token 经济学:如何为不可预测的成本定价

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个团队发布了一款面向用户的 AI 助手。他们将其定价为每席位每月 49 美元,根据一份假设“每次查询平均 500 个 token”的电子表格,目标毛利率为 70%。三个月后,财务部门指出,他们的重度用户在每个会话中消耗了 15,000 个 token。定价模型之所以崩溃,并不是因为功能失败,而是因为产品团队为他们尚不了解的东西定了价。

这并非预测失败。这是一个结构性问题:大模型驱动产品的成本基准与传统 SaaS 定价所设计的处理方式根本不同。每一次 API 调用都有不可预测且实质性的 token 成本。输入因用户、任务和时间段而异。输出以各种方式复合增长,而这些影响直到几周后才会出现在你的云账单上。一旦你引入了智能体模式 (Agentic patterns) —— 工具调用、多轮推理、子智能体编排 —— 单次用户交互的成本可能是 0.02 美元,也可能是 20 美元,这完全取决于模型的决定。

为什么按席位和按查询定价都会失效

传统 SaaS 的利润模型建立在两个假设之上:边际成本在规模化后趋近于零,且每个用户消耗的产品量大致相同。这两点在 AI API 中都失效了。

按席位定价失效是因为 token 消耗呈幂律分布 (power-law distributed)。根据使用模式的不同,一个每月 10,000 美元的企业席位可能产生 100 美元到 100,000 美元不等的实际 token 成本。平均值作为定价信号是毫无意义的,因为它是由前 5% 的用户驱动的。在健身房会员模式中,重度用户可以很好地补贴轻度用户;但在大模型产品中,一个重度用户就能毁掉你整个群体的利润。

按查询定价失效的原因则相反。两个进行结构化相同 API 调用的客户,可能会因为提示词长度、模型是否调用工具、发生了多少次重试循环,以及你触达的是缓存还是非缓存上下文,而产生 10 倍的 token 成本差异。对成本差异达 100 倍的查询收取相同的费用,要么是一个获客陷阱(补贴昂贵的用户),要么是一个市场退出陷阱(对便宜的用户收费过高)。

更深层次的问题是,这两种模型都不是为了适应可变成本路径而设计的 —— 即在请求完成之前,服务请求的成本是无法预知的。

智能体循环中的 O(N²) 问题

如果按席位和按查询定价对简单的聊天机器人来说已经失效,那么对于由智能体编排多个步骤、工具和模型调用的智能体产品来说,它们会遭遇灾难性的失败。

原因在于上下文累积 (Context compounding)。Transformer 模型在每次推理调用中都要为整个上下文窗口付费,而不仅仅是新生成的 token。在多轮智能体循环中,每一轮都会累积之前所有的上下文作为输入:

  • 第 1 轮:4,000 token 系统提示词 + 500 token 用户输入 = 计费 4,500 token
  • 第 2 轮:4,000 系统提示词 + 500 输入 + 800 token 先前输出 = 计费 5,300 token
  • 第 10 轮:所有先前上下文 + 新输入 ≈ 计费 25,000+ token

总成本遵循 n(n+1)/2 的增长曲线,而不是随轮次线性增长。一个 10 轮的智能体运行成本大约是单次查询的 55 倍,而不是 10 倍。将智能体成本建模为“轮次 × 每轮平均成本”的团队,在第一张生产发票到达之前,通常会低估 3 到 5 倍。

一个拥有 20 页系统提示词并运行 20 轮的智能体,仅在系统提示词重复上就要支付约 80,000 个输入 token。按照目前的顶尖模型定价,在计算模型实际完成的工作之前,仅提示词一项每月的成本就高达数百美元。

这使得你的智能体架构与你的定价模型同样重要。一个允许智能体运行无限制工具调用循环或累积无限上下文的产品,其成本将是无限制且不可预测的。

什么样的定价结构真正有效

行业已经趋向于几种比固定费率模型更能反映成本变动性的模式。

**混合定价(固定基费 + 超量使用费)**目前是大多数人的选择。你收取固定的月度订阅费,涵盖定义的 token 配额,然后对超出该基准的部分按每百万 token 收取超量费用。固定部分为客户提供了可预测的预算底线;超量部分意味着重度用户为其实际消耗付费。需要避免的关键失效模式是将基准配额设得太高,以至于超量收费在理论上可能但在实践中从未触发 —— 这只是重新制造了按席位定价的问题。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates