AI 功能定价：工程团队总是跳过的单位经济学框架

2026年4月17日 · 阅读需 13 分钟

Software Engineer

Cursor 在 2025 年实现了 10 亿美元营收，却亏损了 1.5 亿美元。客户支付的每一分钱都直接流向了 LLM API 供应商，工程、支持和基础设施开销无从覆盖。这不是一个规模化问题——而是一个单位经济学问题，在酿成危机之前始终隐而不见。

大多数构建 AI 功能的工程团队都在犯同一个错误：把推理成本当作一个无关紧要的小项，上线固定费率订阅，然后假设经济账迟早会算对。但它永远不会自己算对。可变推理成本的行为方式与软件中任何其他 COGS 都截然不同——一旦你最重度的用户发现了你最昂贵的功能，那些适用于传统 SaaS 的定价架构就会让你流血不止。

这套框架的目的，是在上生产之前把账算清楚，而不是在利润率危机爆发之后。

为什么可变推理成本会打破 SaaS 假设

传统 SaaS 定价建立在一个简单前提上：每增加一个用户的边际成本接近于零。托管便宜，带宽便宜，数据库读取便宜。你按价值定价，而不是按成本定价，随着量的增长，毛利率也会扩大。

AI 推理颠覆了这一逻辑。每次 API 调用都有真实的、可变的成本，并随用户行为直接扩大。一个对话功能使用中端模型每次查询可能花费 0.005 美元。听起来微不足道——直到你算一下在 10 万月活跃用户、每人平均 20 次查询时会发生什么。仅这一个功能每月就产生 1 万美元的推理成本，还不算基础设施开销、降级模型、可观测性工具和重试逻辑。

从试验到生产的成本乘数持续让团队感到意外。测试中每次调用成本 0.50 美元的功能，进入生产后通常落在 3–5 美元——一旦计入以下因素：错误重试、输出验证循环、对话历史带来的上下文填充，以及调试所需的可观测性技术栈。按试验基准定价的团队都是以最惨烈的方式发现这一现实的。

在 Agentic 工作流中，情况会更加极端。一次简单的单次推理调用可能花费 0.02 美元，而同一任务通过一个自我修正、调用工具、验证自身输出的 Agent 来完成，可能花费 0.50–2.00 美元——25–100 倍的乘数。如果你按单次调用成本定价，每月收费 20 美元，一个重度 Agentic 用户可以在几小时内消耗掉你全部的月收入。

构建按工作流的成本模型

解药是在工作流层面而非 API 层面进行成本建模。在上线任何 AI 功能之前，你需要一张成本表，回答三个问题：一次激活的成本是多少，第 90 百分位激活的成本是多少，以及当用户每天运行 500 次时会发生什么？

从每个工作流的四个成本维度开始：

模型选型是最大的杠杆所在。现代 LLM 的价格区间跨越 100 倍。判断客户意图的分类任务，不需要与复杂多步推理任务相同的模型。将简单操作路由到经济型模型（Claude Haiku、GPT-4o mini），将高端模型保留给真正需要的任务，可以在几乎不影响质量的情况下将平均推理成本降低 60–80%。

Token 管理是第二个杠杆。输入 token 比输出 token 便宜——通常便宜 4–5 倍。每一个在不损失质量的前提下能从提示词中去掉的 token，都是直接的成本节约。常见的浪费来源：系统提示中冗余的重复指令、不必要的对话历史填充、以及 RAG 检索时拉入的上下文远超模型实际使用量。

提示词缓存的使用率不足，但回报极高。当你的系统提示和注入文档在多次调用中保持不变时，缓存 token 的成本仅为标准输入价格的 10–15%。通过仅仅将提示词结构调整为静态内容出现在动态查询之前，运行大型文档分析流水线的团队已借此将 LLM 成本降低了 50–90%。

批处理为非实时工作负载提供两大主要 API 供应商均提供的 50% 固定折扣。文档处理、数据增强、后台摘要——任何不需要立即同步响应的任务，都可以通过批量 API 处理，立即将成本减半。

你的成本模型应输出：每次工作流激活的中位成本、第 90 百分位成本，以及每用户的每日成本上限——一旦超出，就是值得调查的异常信号。

重度用户补贴问题

以下是让固定费率 AI 订阅崩溃的数学逻辑：

假设你以每月 20 美元提供一个 AI 写作助手，用户群大致分为三组：

轻度用户（80% 的客户）：每天 5–10 次查询，实际推理成本每月 1–2 美元
普通用户（18%）：每天 50 次查询，实际推理成本每月 15–20 美元
重度用户（2%）：每天 300–500 次查询，实际推理成本每月 100–200 美元

在典型的 AI SaaS 分布中，前 20% 的用户消耗了 80% 的算力。前 1–2% 的用户可能占总推理成本的 40–50%，却与其他人一样每月只支付 20 美元。

在传统 SaaS 中，轻度用户不会交叉补贴重度用户，因为边际成本可以忽略不计。在 AI 中，他们是实打实地、一美元对一美元地补贴。以 1,000 名客户为例：800 名轻度用户产生约 1,600 美元的推理 COGS，而 20 名重度用户产生约 3,000–4,000 美元。营收：20,000 美元。推理 COGS：约 5,600 美元，再乘以 2 倍的基础设施系数 = 约 11,200 美元。毛利率：约 44%。勉强可以接受——但前提是你已经对此建模。

现在考虑当你的产品获得牵引力，重度用户比例从 2% 升至 5% 时会发生什么。订阅价格不变，功能集不变——但 COGS 占营收的比例会急剧跳升。很多团队只有在利润率转为负值之后才发现这一变化。

解决方法是尽早识别重度用户，并设计定价来要么捕获他们的价值，要么限制他们的用量。每周追踪每用户成本。对任何推理成本超过所在套餐平均值 2 倍的账户发出标记。如果你的前 10 名用户消耗了中位用户的 50 倍，你就面临一个只会持续增长的补贴问题。

用量上限设计：软限制、中限制、硬限制

无限 AI 功能是负债，而不是差异化优势——除非你已明确对"无限"的成本进行建模和定价。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 功能定价：工程团队总是跳过的单位经济学框架

为什么可变推理成本会打破 SaaS 假设

构建按工作流的成本模型

重度用户补贴问题

用量上限设计：软限制、中限制、硬限制

Recommended Reading

关于 Tian Pan

为什么可变推理成本会打破 SaaS 假设​

构建按工作流的成本模型​

重度用户补贴问题​

用量上限设计：软限制、中限制、硬限制​

Recommended Reading

关于 Tian Pan

为什么可变推理成本会打破 SaaS 假设

构建按工作流的成本模型

重度用户补贴问题

用量上限设计：软限制、中限制、硬限制