跳到主要内容

AI 产品定价:逃脱算力成本陷阱

· 阅读需 11 分钟
Tian Pan
Software Engineer

有一家公司每位用户每月收费 50 英镑。其 AI 功能消耗了 30 英镑的 API 费用。这意味着在支付任何一笔退款或处理任何一个流失席位之前,剩下的 20 英镑还要覆盖主机、支持和利润。他们打造了用户喜爱的产品,发展到数千名订阅者,却在不知不觉中构建了一个客户越多、亏损越多的商业模式。

这并非关于坏主意的警示故事,而是关于定价架构的警示故事——这套架构从一个下一个用户边际成本几乎为零的世界照搬而来。当你的产品需要调用语言模型时,那个世界已不再完全适用。

传统 SaaS 毛利率为 70–90%。以 AI 为核心的公司报告的数字是 50–60%——差距主要由一行成本解释:推理。当 Token 占据销售成本的 20–40% 时,标准 SaaS 打法就会失效。

为何固定收费在 Token 压力下失效

传统软件的经济学在其简洁性上堪称完美。一旦支付了服务器费用,每增加一个用户几乎不产生任何成本。在那个世界里,定价是关于支付意愿和竞争定位的问题——成本只是一个可以忽略不计的数字。

LLM 驱动的功能不具备这一特性。每次查询都会触发一次真实的 API 调用。每月提问 400 次的用户,服务成本是提问 200 次用户的两倍——这个比例不会随着规模扩大而收窄,而是会持续累积。

设想一个月均 ARPU 为 20 美元的产品。一个每月消耗 20 万个 Token 的轻度用户,按中档模型定价(每百万 Token 1 美元)算,Token 成本为 0.20 美元——在 92% 毛利率下,这是个可以忽略的小数。但重度用户每月消耗 200 万个 Token,使用高端模型(每百万 Token 5 美元)时,成本高达 10 美元——占月收入的一半,而这还未算上任何服务器或支持工单的费用。

危险之处在于,这些用户往往看起来是你最好的客户。他们参与度最高,使用每一个功能,并产生推动增长的口碑。然而,他们悄悄地也是单位经济最差的用户。

OpenAI 在 ChatGPT Pro 上直接领教了这一点。即便每月 200 美元——市场上最高的消费级 AI 订阅价——当每月查询超过 2 万次的用户群体无限制使用时,这个价格依然在亏损。看起来是高端定价的方案,在无限制使用的情况下仍然不够。

四种定价架构及其各自的失败模式

应对 AI 定价挑战的团队往往会集中于四种模式之一,每种模式都有特定的失败方式。

捆绑固定费用——AI 功能包含在现有套餐中,不额外收费。发布最简单,采用最快速。失败模式是无声的:如果使用量激增,毛利率会悄然压缩。你不会在获客指标中看到它,而是会在季度财务审查中发现毛利率比预测低了十个百分点。

分层使用上限——每个套餐包含一定配额(每月 100 万个 Token、50 条聊天消息、2000 次代码补全),重度用户触及上限后需升级。GitHub Copilot 免费版正是如此:2000 次补全和 50 条聊天消息,然后停止服务。这是部署最广泛的方案,因为它从经济上对用户进行了分层——消耗 80% Token 支出的 5% 用户,也恰恰是最愿意为更多配额付费的 5%。失败模式是触及上限时的流失。如果上限设置过于激进,会激怒那些为你最大声鼓与呼的重度用户。

计量超额收费——基础订阅包含 Token 预算,用户在超出阈值后按单位费率付费。例如:每月 1000 美元平台费包含 100 万个 Token,超出后每 10 万个 Token 收费 2 美元。失败模式是意外账单。未监控使用量的用户会收到出乎意料的大额账单,进而流失或提出争议。这种架构需要完善的用量仪表板和主动提醒才能有效运作。

基于结果定价——按已解决工单、已完成文档、已成交订单或其他下游结果收费,而非按 Token 消耗。失败模式是归因复杂性:你需要对"结果"的定义清晰可辩,而客户会找到边界案例。

这些架构没有哪一种是普遍正确的。目前有 56% 的 AI SaaS 公司采用混合模式,将订阅的可预测性与某种使用量信号结合起来。

真正有效的毛利保护模式

目标不是惩罚重度用户——他们是你最好的倡导者。目标是避免用几乎不碰 AI 功能的用户收入来补贴重度用户。

模型路由是最被低估的杠杆。并非每个查询都需要顶级模型。一家将 80% 查询路由到 DeepSeek(每百万 Token 0.55 美元)、仅将真正复杂的任务保留给 Claude Opus(每百万 Token 15 美元)的公司,与对每次自动补全都调用最强模型的公司相比,运营在截然不同的成本基线上。成本差异是真实的:500 词的 GPT-4 回复大约花费 0.084 美元;同等的 Llama 2 回复大约花费 0.0007 美元——相差约 120 倍。将模型选择构建进架构而非硬编码单一模型的团队,拥有结构性的毛利优势。

双指标追踪将客户所见与你内部管理的内容分离。对外,用户看到的是"额度"、"消息数"或"请求数"。对内,你追踪的是 Token 消耗量、算力时长和每用户的销售成本。这不是欺骗——而是抽象。客户不想思考 Token,就像他们不想思考数据库查询成本一样。但你需要粒度数据,以便在单位经济已经恶化的用户问题出现在损益表上之前就发现它。

软上限先于硬上限能降低触及上限时的流失。一个在月配额用至 80% 时收到通知的用户,有时间在撞墙之前选择升级。一个在用至 100% 时突然发现产品降级的用户,会流失或升级至支持工单。Anthropic 将限速措施针对最密集的 5% 用户而非采用硬性上限的做法,正是这一原则的体现:保护中位数用户体验而不惩罚它。

公平使用节流作为经济信号,在客户无法直接看到 Token 算法时很有效。如果一个用户消耗 Token 的速度使其账户无法盈利,正确的应对不是立即关闭他的访问,而是优雅地限速,观察他是否注意到、是否在意,并将这一信号用于判断他是否属于更高套餐的用户。

基于价值定价何时成为唯一可行模式

LLM 推理成本的长期走势是通缩的——且是激进的通缩。2023 年至 2025 年间,中位推理价格每年下降约 50 倍。2024 年 1 月后,特定任务类别的年度降幅达到 900 倍。Gartner 预测,到 2030 年推理成本将比 2025 年水平下降逾 90%。

这为基于使用量的定价制造了特定危险。如果你今天对每 10 万个 Token 收费 2 美元,而到 2028 年生成这些 Token 只需 0.005 美元,你的定价压缩了 95%,而服务成本下降了 99%。你保留了一些毛利,但也向客户提供了他们未要求的 95% 降价——他们甚至可能未曾注意到——同时将业务的收入机械地绑定在一个每季度都在下跌的商品价格上。

基于结果的定价打破了这种联系。如果你对每张已解决的支持工单收费 0.99 美元,那么底层模型成本是从每次解决 0.30 美元降到 0.003 美元,并不重要。你的收入锚定于交付的价值,而非消耗的基础设施。随着成本下降,你的毛利率扩张,而不是你的价格崩溃。

Intercom Fin 在规模上验证了这一点。按每张已解决客户问题收费 0.99 美元,而非按 Token 或按席位,它在约两年内从 100 万美元增长到超过 1 亿美元的 ARR,同时处理了客户群体 80% 的支持量。随着推理成本下降,这个模式变得更可持续,而非更脆弱——因为结果价格锚定于一张已解决工单对客户的价值,而非解决它的 API 调用成本。

切换到基于结果定价的门槛不是技术性的——而是经济性的。你需要一个客户认可为已交付价值的清晰、可核实的结果。你需要不易被操纵的归因。你还需要有信心:该结果对客户的价值,以舒适的利润超过你的完全摊薄交付成本。

当一张已解决的支持工单对客户价值 50 美元、交付成本为 0.50 美元时,你可以收费 0.99 美元,获得 98% 的毛利率,无论使用哪种模型。这个算法几乎能经受任何成本走势。

实用决策框架

在发布 AI 功能之前,决定定价架构的关键问题:

  • 谁是重度用户,服务他们的实际成本是多少? 按 P95 使用量而非中位数进行测算。如果 P95 经济上可盈利,你就拥有一个可捆绑的套餐。如果不能,你需要上限或结果定价。
  • 结果的价值是否可测量且客户可核实? 如果是,基于结果的定价对你开放。如果 AI 功能以无人能衡量的方式提升了生产力,你只能使用基于消耗的代理指标。
  • 你的推理成本下降有多快? 如果你使用的模型类别成本每年下降 50 倍,将收入锚定于消耗就是将收入锚定于一个不断下跌的数字。结果定价能保护你免受影响。
  • 你的客户群使用模式是否可预测? 如果使用量方差低(例如固定工作流),捆绑套餐有效。客户间的高方差几乎总是需要使用量上限或计量收费。

成本加成的本能反应——取 Token 成本,乘以目标利润率,得出价格——只在一种情况下给出正确答案:当客户拥有直接替代品,将你的产品商品化并迫使你在成本上竞争时。在大多数 AI 产品场景中,这种情况尚未到来。在此之前,以成本地板定价既是在桌上留钱,也是在单位经济中植入脆弱性。

展望:智能体 AI 再次改变算法

智能体工作流每个任务消耗的 Token 远多于单次查询。一个验证自身输出、调用外部工具并在不确定时重试的推理循环,可能消耗简单生成任务 10–50 倍的 Token。随着团队发布更多自主 AI 功能,每用户 Token 消耗的方差增大——均值也向上移动。

这使基于结果的定价更具吸引力,而非更少。按智能体运行次数、已完成任务数或已解决结果收费,能使你的定价免受智能体 Token 消耗复合不可预测性的影响。这也强制执行了一个有益的纪律:如果你按结果收费,你就会仔细思考结果是什么——而这恰恰是提升智能体系统产品质量所需的思考。

到 2027 年拥有可持续单位经济的团队,正在现在就构建基于结果模型的监控体系和定价架构——趁智能体工作流将每用户 Token 消耗推入能打破所有仍在运行的固定费用假设的范围之前。

References:Let's stay in touch and Follow me for more thoughts and updates