AI 驱动的 API 产品 Token 经济学：如何为不可预测的成本定价

2026年5月5日 · 阅读需 12 分钟

Software Engineer

一个团队发布了一款面向用户的 AI 助手。他们将其定价为每席位每月 49 美元，根据一份假设“每次查询平均 500 个 token”的电子表格，目标毛利率为 70%。三个月后，财务部门指出，他们的重度用户在每个会话中消耗了 15,000 个 token。定价模型之所以崩溃，并不是因为功能失败，而是因为产品团队为他们尚不了解的东西定了价。

这并非预测失败。这是一个结构性问题：大模型驱动产品的成本基准与传统 SaaS 定价所设计的处理方式根本不同。每一次 API 调用都有不可预测且实质性的 token 成本。输入因用户、任务和时间段而异。输出以各种方式复合增长，而这些影响直到几周后才会出现在你的云账单上。一旦你引入了智能体模式 (Agentic patterns) —— 工具调用、多轮推理、子智能体编排 —— 单次用户交互的成本可能是 0.02 美元，也可能是 20 美元，这完全取决于模型的决定。

为什么按席位和按查询定价都会失效

传统 SaaS 的利润模型建立在两个假设之上：边际成本在规模化后趋近于零，且每个用户消耗的产品量大致相同。这两点在 AI API 中都失效了。

按席位定价失效是因为 token 消耗呈幂律分布 (power-law distributed)。根据使用模式的不同，一个每月 10,000 美元的企业席位可能产生 100 美元到 100,000 美元不等的实际 token 成本。平均值作为定价信号是毫无意义的，因为它是由前 5% 的用户驱动的。在健身房会员模式中，重度用户可以很好地补贴轻度用户；但在大模型产品中，一个重度用户就能毁掉你整个群体的利润。

按查询定价失效的原因则相反。两个进行结构化相同 API 调用的客户，可能会因为提示词长度、模型是否调用工具、发生了多少次重试循环，以及你触达的是缓存还是非缓存上下文，而产生 10 倍的 token 成本差异。对成本差异达 100 倍的查询收取相同的费用，要么是一个获客陷阱（补贴昂贵的用户），要么是一个市场退出陷阱（对便宜的用户收费过高）。

更深层次的问题是，这两种模型都不是为了适应可变成本路径而设计的 —— 即在请求完成之前，服务请求的成本是无法预知的。

智能体循环中的 O(N²) 问题

如果按席位和按查询定价对简单的聊天机器人来说已经失效，那么对于由智能体编排多个步骤、工具和模型调用的智能体产品来说，它们会遭遇灾难性的失败。

原因在于上下文累积 (Context compounding)。Transformer 模型在每次推理调用中都要为整个上下文窗口付费，而不仅仅是新生成的 token。在多轮智能体循环中，每一轮都会累积之前所有的上下文作为输入：

第 1 轮：4,000 token 系统提示词 + 500 token 用户输入 = 计费 4,500 token
第 2 轮：4,000 系统提示词 + 500 输入 + 800 token 先前输出 = 计费 5,300 token
第 10 轮：所有先前上下文 + 新输入 ≈ 计费 25,000+ token

总成本遵循 n(n+1)/2 的增长曲线，而不是随轮次线性增长。一个 10 轮的智能体运行成本大约是单次查询的 55 倍，而不是 10 倍。将智能体成本建模为“轮次 × 每轮平均成本”的团队，在第一张生产发票到达之前，通常会低估 3 到 5 倍。

一个拥有 20 页系统提示词并运行 20 轮的智能体，仅在系统提示词重复上就要支付约 80,000 个输入 token。按照目前的顶尖模型定价，在计算模型实际完成的工作之前，仅提示词一项每月的成本就高达数百美元。

这使得你的智能体架构与你的定价模型同样重要。一个允许智能体运行无限制工具调用循环或累积无限上下文的产品，其成本将是无限制且不可预测的。

什么样的定价结构真正有效

行业已经趋向于几种比固定费率模型更能反映成本变动性的模式。

**混合定价（固定基费 + 超量使用费）**目前是大多数人的选择。你收取固定的月度订阅费，涵盖定义的 token 配额，然后对超出该基准的部分按每百万 token 收取超量费用。固定部分为客户提供了可预测的预算底线；超量部分意味着重度用户为其实际消耗付费。需要避免的关键失效模式是将基准配额设得太高，以至于超量收费在理论上可能但在实践中从未触发 —— 这只是重新制造了按席位定价的问题。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 驱动的 API 产品 Token 经济学：如何为不可预测的成本定价

为什么按席位和按查询定价都会失效

智能体循环中的 O(N²) 问题

什么样的定价结构真正有效

Recommended Reading

关于 Tian Pan

为什么按席位和按查询定价都会失效​

智能体循环中的 O(N²) 问题​

什么样的定价结构真正有效​

Recommended Reading

关于 Tian Pan

为什么按席位和按查询定价都会失效

智能体循环中的 O(N²) 问题

什么样的定价结构真正有效