跳到主要内容

AI 功能定价:工程团队总是跳过的单位经济学框架

· 阅读需 13 分钟
Tian Pan
Software Engineer

Cursor 在 2025 年实现了 10 亿美元营收,却亏损了 1.5 亿美元。客户支付的每一分钱都直接流向了 LLM API 供应商,工程、支持和基础设施开销无从覆盖。这不是一个规模化问题——而是一个单位经济学问题,在酿成危机之前始终隐而不见。

大多数构建 AI 功能的工程团队都在犯同一个错误:把推理成本当作一个无关紧要的小项,上线固定费率订阅,然后假设经济账迟早会算对。但它永远不会自己算对。可变推理成本的行为方式与软件中任何其他 COGS 都截然不同——一旦你最重度的用户发现了你最昂贵的功能,那些适用于传统 SaaS 的定价架构就会让你流血不止。

这套框架的目的,是在上生产之前把账算清楚,而不是在利润率危机爆发之后。

为什么可变推理成本会打破 SaaS 假设

传统 SaaS 定价建立在一个简单前提上:每增加一个用户的边际成本接近于零。托管便宜,带宽便宜,数据库读取便宜。你按价值定价,而不是按成本定价,随着量的增长,毛利率也会扩大。

AI 推理颠覆了这一逻辑。每次 API 调用都有真实的、可变的成本,并随用户行为直接扩大。一个对话功能使用中端模型每次查询可能花费 0.005 美元。听起来微不足道——直到你算一下在 10 万月活跃用户、每人平均 20 次查询时会发生什么。仅这一个功能每月就产生 1 万美元的推理成本,还不算基础设施开销、降级模型、可观测性工具和重试逻辑。

从试验到生产的成本乘数持续让团队感到意外。测试中每次调用成本 0.50 美元的功能,进入生产后通常落在 3–5 美元——一旦计入以下因素:错误重试、输出验证循环、对话历史带来的上下文填充,以及调试所需的可观测性技术栈。按试验基准定价的团队都是以最惨烈的方式发现这一现实的。

在 Agentic 工作流中,情况会更加极端。一次简单的单次推理调用可能花费 0.02 美元,而同一任务通过一个自我修正、调用工具、验证自身输出的 Agent 来完成,可能花费 0.50–2.00 美元——25–100 倍的乘数。如果你按单次调用成本定价,每月收费 20 美元,一个重度 Agentic 用户可以在几小时内消耗掉你全部的月收入。

构建按工作流的成本模型

解药是在工作流层面而非 API 层面进行成本建模。在上线任何 AI 功能之前,你需要一张成本表,回答三个问题:一次激活的成本是多少,第 90 百分位激活的成本是多少,以及当用户每天运行 500 次时会发生什么?

从每个工作流的四个成本维度开始:

模型选型是最大的杠杆所在。现代 LLM 的价格区间跨越 100 倍。判断客户意图的分类任务,不需要与复杂多步推理任务相同的模型。将简单操作路由到经济型模型(Claude Haiku、GPT-4o mini),将高端模型保留给真正需要的任务,可以在几乎不影响质量的情况下将平均推理成本降低 60–80%。

Token 管理是第二个杠杆。输入 token 比输出 token 便宜——通常便宜 4–5 倍。每一个在不损失质量的前提下能从提示词中去掉的 token,都是直接的成本节约。常见的浪费来源:系统提示中冗余的重复指令、不必要的对话历史填充、以及 RAG 检索时拉入的上下文远超模型实际使用量。

提示词缓存的使用率不足,但回报极高。当你的系统提示和注入文档在多次调用中保持不变时,缓存 token 的成本仅为标准输入价格的 10–15%。通过仅仅将提示词结构调整为静态内容出现在动态查询之前,运行大型文档分析流水线的团队已借此将 LLM 成本降低了 50–90%。

批处理为非实时工作负载提供两大主要 API 供应商均提供的 50% 固定折扣。文档处理、数据增强、后台摘要——任何不需要立即同步响应的任务,都可以通过批量 API 处理,立即将成本减半。

你的成本模型应输出:每次工作流激活的中位成本、第 90 百分位成本,以及每用户的每日成本上限——一旦超出,就是值得调查的异常信号。

重度用户补贴问题

以下是让固定费率 AI 订阅崩溃的数学逻辑:

假设你以每月 20 美元提供一个 AI 写作助手,用户群大致分为三组:

  • 轻度用户(80% 的客户):每天 5–10 次查询,实际推理成本每月 1–2 美元
  • 普通用户(18%):每天 50 次查询,实际推理成本每月 15–20 美元
  • 重度用户(2%):每天 300–500 次查询,实际推理成本每月 100–200 美元

在典型的 AI SaaS 分布中,前 20% 的用户消耗了 80% 的算力。前 1–2% 的用户可能占总推理成本的 40–50%,却与其他人一样每月只支付 20 美元。

在传统 SaaS 中,轻度用户不会交叉补贴重度用户,因为边际成本可以忽略不计。在 AI 中,他们是实打实地、一美元对一美元地补贴。以 1,000 名客户为例:800 名轻度用户产生约 1,600 美元的推理 COGS,而 20 名重度用户产生约 3,000–4,000 美元。营收:20,000 美元。推理 COGS:约 5,600 美元,再乘以 2 倍的基础设施系数 = 约 11,200 美元。毛利率:约 44%。勉强可以接受——但前提是你已经对此建模。

现在考虑当你的产品获得牵引力,重度用户比例从 2% 升至 5% 时会发生什么。订阅价格不变,功能集不变——但 COGS 占营收的比例会急剧跳升。很多团队只有在利润率转为负值之后才发现这一变化。

解决方法是尽早识别重度用户,并设计定价来要么捕获他们的价值,要么限制他们的用量。每周追踪每用户成本。对任何推理成本超过所在套餐平均值 2 倍的账户发出标记。如果你的前 10 名用户消耗了中位用户的 50 倍,你就面临一个只会持续增长的补贴问题。

用量上限设计:软限制、中限制、硬限制

无限 AI 功能是负债,而不是差异化优势——除非你已明确对"无限"的成本进行建模和定价。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates