跳到主要内容

小费罐问题:当 5% 的用户消耗了 80% 的推理预算时

· 阅读需 14 分钟
Tian Pan
Software Engineer

一位开发者在每月 200 美元的套餐下跑出了超过 35,000 美元的计算费用。这是对单一用户 175 倍的补贴——由那些本可以愉快地使用 19 美元档位的普通大众买单。这是每一个“为什么本季度我们的 AI 毛利率是负的?” Slack 讨论串背后支撑的数学逻辑。问题不在于那一个用户;而在于那一类用户的长尾效应遵循幂律分布,而幂律分布加上固定费率计费,再加上真实的单位成本,构成了一个任何增长都无法修复的结构性毛利压缩器。

当这种情况出现在财务审查中时,下意识的反应就是收紧:严格的 Token 上限、埋在服务条款(TOS)里的“公平使用”措辞、每周限流、为免费层级悄悄降级模型。这些手段在止损方面确实有效。但它们也会疏远你所依赖的那些布道者用户,因为触及上限的人正是那些真正搞清楚了如何从你的产品中提取价值的人。标准的做法是向错误的群体致以一份向后兼容的道歉。

真正的解决方案更难、更不体面:一个让价格与提取价值相对齐的层级架构、让这种架构可观测的计量基础设施,以及坦诚承认“我们以后再考虑单位经济效益”这句话杀死的 AI 创业公司比功能平庸杀死的还要多。

为什么固定费率在可变成本下会失效

经典的 SaaS 经济学之所以奏效,是因为边际成本趋于零。一旦你构建了功能并发布了二进制文件,服务第 100,000 个用户基本上是免费的。这就是为什么固定费率定价、免费增值模式和“无限”层级不仅是营销噱头,而且在数学上是站得住脚的:底层 80% 的用户服务成本几乎为零,而顶层 5% 的用户服务成本也几乎没增加多少。

以 Token 计费的 AI 产品彻底打破了这一假设。每一次推理、每一次重试、每一次检索查询、每一次链式工具调用,都会在收入产生的同一会计周期内产生真实的成本。CloudZero 的企业 FinOps 审计经常发现,隐藏成本——嵌入生成、检索增强生成(RAG)、上下文窗口管理、重试逻辑——在原始推理账单的基础上又增加了 40–60%。单位成本不仅不为零;它不为零、是可变的,并且随着参与度的提高而增长。

在这种情况下再加上幂律分布的使用量,算术题很快就会变得很难看。Replit 的毛利率在几个月内从 36% 波动到负 14%,因为他们的 AI Agent 消耗的 LLM 资源超过了其定价所覆盖的范围。据报道,Cursor 在 2025 年中期从每月 500 次请求的固定方案转向直接与供应商费率挂钩的额度池之前,其 ARR 超过了 5 亿美元,但 AI 成本几乎占了收入的 100%。OpenAI 自身在 2025 年公布的毛利率为 33%,推理成本预计将从 84 亿美元激增至 2026 年的 141 亿美元;Anthropic 的毛利率从 2024 年的 -94% 提高到 2025 年的约 40%,仍比内部目标低 10 个百分点。

宏观故事之所以重要,是因为它限制了你的微观故事。如果模型提供商自己在推理上都处于负毛利或薄利状态,那么任何以固定月费转售该推理服务的人,都是在从一个已经空了的帽子里变戏法。那种“成本会下降,只要保持增长就好”的论调假设推理成本的衰减速度快于使用量的增长。到目前为止,使用量的增长在每个季度都胜出——模型升级提高单次任务 Token 消耗的速度快于单 Token 价格下降的速度。

大户布道者困局

这是一个让显而易见的解决方案变得弄巧成拙的陷阱。你的权力用户(Power users)同时具备以下身份:(1) 你最糟糕的毛利杀手;(2) 在博客上写集成指南的人;(3) 大多数口碑增长的源头;(4) 如果你允许的话,最愿意支付更多费用的群体。

标准的“上限加限流”做法仅将他们视为第一种情况。这就是 Anthropic 在 2026 年 3 月下旬收紧周一至周五高峰时段的五小时会话限制时发生的情况——约 7% 的用户开始触及以前从未触及的上限,而这 7% 中在社交平台发声的少数派引发了长达数天的“Anthropic 正在削弱 Claude”的舆论风暴。OpenAI 在 4 月初将 Codex 从固定消息定价转向 Token 计量。GitHub 在 4 月 10 日收紧了 Copilot 的限制。Windsurf 在 3 月将其额度系统替换为每日和每周配额。从利润角度来看,这些举动在辩护上都是正确的。但它们也伤害了那个为你销售团队下季度使用的案例研究提供素材的群体的信任。

错误不在于存在限制。错误在于将限制视为价格纠正层,而不是安全护栏层。上限可以阻止失控的脚本;上限无法将价格与价值对齐。如果你每月收费 20 美元的客户产生了 400 美元的推理成本,任何上限都解决不了问题——它只是意味着你的利润损失被限制在 400 美元而不是 4000 美元。你仍然在每笔交易中亏钱,只是每笔亏得少了。

想要在你身上花更多钱的群体,和不希望被拒绝的群体,其实是同一个群体。他们想要一条能花更多钱的途径。没有这条途径的限制,就是你在教你最有价值的用户将你从他们的工作流预算中剔除。

使价格与所提取价值对齐的分层架构

真正适合按 token 计费的 AI 定价模型通常落入少数几种结构模式中,所有这些模式都要求放弃固定费率方案那种舒适的可预测性,转而采用在长尾用量下不会崩溃的数学模型。

任务层级定价(Task-tier pricing)。 按工作单元计费,而非按 token 计费。Devin 的“智能体计算单元(Agent Compute Unit)”——大约 15 分钟的活跃 AI 开发工作——就是最清晰的例子。Replit 从每项编程任务固定收 25¢ 转向了“基于投入的定价(effort-based pricing)”,复杂任务的费用可达 $2。Zendesk 在这方面走得最远,推出了基于结果的定价:只有当智能体真正解决了工单时才向客户收费,失败的尝试则不收费。任务层级定价之所以有效,是因为它将成本波动外包给了用户,而无需强迫用户去思考 token。用户购买的是结果;供应商购买的是 token;而转换率则是供应商需要去优化的难题。

带有突发额度的信用池(Credit pools with burst credits)。 映射到实际成本的每月信用额度分配,外加一个独立的突发额度池(burst credits),用于在需求高峰期解锁优先路由或扩展用量。ElevenLabs 在不同层级中扩展信用池、模型访问权限和语音质量。Cursor 的信用池从 20方案扩展到20 方案扩展到 200 方案。架构上的深刻见解在于,信用额度将你的 SKU 定价与原始供应商成本解耦——如果 Anthropic 将 Sonnet 的费率提高 15%,你的信用额度与 token 的比例可以随之调整,而无需更改面向客户的价格。对于在工作流中遇到限制的深度用户,突发额度则充当了压力释放阀。

带有超额计费的基于价值的上限(Value-based caps with overage)。 在触发限制前发出警报的软上限,加上自动升级提示和超额定价,让深度用户可以通过付费继续使用,而不是被生硬地拒绝。关键的设计选择是,达到上限绝不应是对话的终点,而应是一个报价单。如果你最顶尖的 5% 用户产生了 80% 的用量,那么这 5% 的用户就是你意向最高的付费转化群体;请给予他们相应的待遇。现在许多 AI 工具将触达上限的时刻设计为无摩擦的“购买更多额度”界面,而不是充满摩擦的“等到下个月”的围墙。

混合基础 + 用量计费(Hybrid base + usage)。 一个覆盖固定成本(鉴权、控制面板、支持、基础推理配额)的订阅底座,加上超出底座后的计量消费。这是大多数企业级 AI 计费趋于一致的模式,也是 Anthropic 在 2025 年末引导企业客户转向的模式。基础费用为采购提供了可预测性;用量层则为供应商提供了利润保障。毛利率受损的风险范围很窄——你只会在基础配额上亏损——而上行收益则是无上限的。

在这些模式之间做出选择并非营销决策。它取决于你特定产品的价值如何随 token 消耗而扩展。如果单个高质量输出的价值远高于一千个低质量输出,那么任务或结果定价更胜一筹。如果用户确实是在一个连续体上进行消耗(聊天、编程、研究),那么信用池或混合模式则更好。这里错误的答案是选择那个在发布演示文稿中看起来最简洁的模型,然后在 18 个月后发现它经不起实际用量曲线的检验。

计量系统必须在定价变更之前落地

在任何定价迁移中,最被低估的工作就是计量层(metering layer)。如果你无法计算信用额度,你就无法发布基于信用的定价。如果你无法检测结果,你就无法发布基于结果的定价。如果你不知道一个任务何时开始、下一个任务何时结束,你就无法发布按任务计费的定价。而且,一旦你在计量系统尚未就绪时宣布新模型,每一场客户纠纷都会变成一张昂贵的支持工单,因为没有人能够审计账单。

实时、多维度的计量比听起来要难。你需要跟踪 token(输入、输出、缓存、推理、工具调用)、模型身份(哪个模型的哪个检查点、处于哪种思考模式)、租户(跨组织的隔离)、工作流(一个智能体运行在多次模型调用中何时开始和结束),以及成本归属链(哪次重试是由哪次面向用户的错误引起的,且不应计费)。传统的 SaaS 计量库并非为此而建;Stripe 在 2026 年推出的 AI 用量计量计费、Orb、Metronome、Amberflo、Flexprice 等专用 AI 计费基础设施的兴起,正是因为将传统的计费工具改造为能够处理事件流 token 遥测(event-stream token telemetry)是一个长达数个季度的项目,大多数团队都会将其难度低估三倍。

一个有效的实际执行顺序是:先打点埋点,再对内公开,最后对外发布。悄无声息地让计量系统落地。在“影子模式”下运行一整个计费周期,让工程团队可以看到“假设的定价模型”,而无需实际扣费。在你向客户展示新的计费项之前,先将其与原始供应商发票核对,确保误差在几个百分点以内。一旦财务部门要求变更定价,立即发布变更的诱惑力很大,但这会产生支持工单的断崖,从而在第三周就导致迁移失败。78% 的 IT 主管表示,按量计费或 AI 定价模型产生了意外费用。这个数字很大程度上反映了计量纪律的缺失,而非定价模型的失败。

“以后”这个词会毁掉一家公司

这个问题最常见的表现形式并非对架构一无所知——大多数 AI 工程师都能告诉你什么是按任务层级定价——而是时间上的乐观主义。这种说辞通常是某个版本的:“让我们先搞定产品与市场匹配(PMF),以后再考虑单位经济效益。反正模型成本正在下降。”

这句话的前后两半都错得很有启发性。每个 Token 的模型成本确实在下降,但平均任务的 Token 消耗量增长得更快,尤其是在推理模式和会触发数十次工具调用的 Agent 工作流中。尽管单 Token 成本在下降,但每个任务的实际成本基本持平,甚至呈上升趋势。“明年会更便宜”的论点已经连续承诺了三年,但对于任何依赖固定费率计费的 AI 产品损益表(P&L)来说,并没有产生实质性的帮助。

“以后再说”的计划还假设,一旦你实现了产品与市场匹配,迁移定价方案就会很容易。事实并非如此。它们反而更难,因为到那时你已经有了合同客户群、一套已固化为预期的使用习惯,以及一支训练有素、专门销售现有 SKU 的销售团队。Cursor、Replit、Anthropic、GitHub、Windsurf——过去 12 个月里,这些公司的每一次定价调整都引发了公众声誉的打击,这种打击是小公司无法承受的。后期修正定价的成本不在于工程工作,而在于你为了那些最有发言权的忠实用户而消耗的信任资本,而他们本已准备好为你宣传。

那些处理得好的公司从第一周起就将定价视为一等公民级别的工程界面。他们在需要之前就构建好了计量层。他们按照用户群(cohort)而不仅仅是混合 ARPU 来建立单位经济模型。他们在第 30 天,而不是第 300 天,就写好了“如果单个用户产生了 X 美元的成本,我们该怎么办?”的操作手册。他们根据明年而非去年的平均任务成本来设定带有利润空间的定价。

有一个更简洁的表达方式:在按 Token 计费的 AI 产品中,定价是架构的一部分。将其视为销售层面或财务计费团队的事务本身就是一个 Bug。内化了这一点的团队,其毛利率曲线在明年会指向正确的方向。而其他人仍在用融资补贴核心用户,并向董事会解释为什么下一轮融资需要比预期更快地完成。

References:Let's stay in touch and Follow me for more thoughts and updates