AI 钱包:为什么 Token 预算应放在 UI 中,而非工程仪表盘里
打开任何采用固定订阅制的 AI 产品的单用户成本仪表盘。其形状总是一样的:一条长长的、几乎无法产生显著影响的扁平尾部,以及顶部一个细长的尖峰—— 5% 的账户消耗了 80% 的推理预算。这个尖峰对处于两端的两类用户都是隐藏的。重度用户不知道自己在补贴其他人——他们以为价格就是那个价格。轻量用户不知道他们可以要求更多——他们以为限制就是那个限制。
仪表盘始终保留在工程团队内部,因为产品经理担心暴露它会吓跑用户。但事实恰恰相反。隐藏成本的团队最终会推出无声的限流、隐藏的模型降级以及导致用户认为“这产品坏了”的答案截断。而那些将成本作为刻意的 UI 界面(而非后台管理页)展示出来的团队,则能将同样的成本上限从流失驱动因素转变为商业化杠杆。
这就是 AI 钱包。它不是一个账单页面,而是一个产品原语(product primitive)。
无处不在的帕累托法则
5/80 的分配并不是理论上的。这是每个按量计费的 AI 产品在上线第一个季度的生产数据中都会发现的情况。少数用户在紧密循环中运行智能体(agent),在每个任务中都动用最大的模型,并进行链式推理直到获得他们想要的精确答案。其他用户则每周打开几次应用,问一个问题,然后关闭标签页。
固定费率订阅假装这两个群体是同一类客户。但单元经济学(unit economics)告诉我们事实并非如此。传统的 SaaS 毛利率在 80–90% 之间,因为一旦分配了席位,下一次请求的边际成本几乎为零。AI 产品的毛利率则在 50–60% 之间——有时甚至更低——因为每个提示(prompt)在 Token 上都有切实的成本,而且该成本随着提示长度、回答长度和并发量的增加而上升。下一次请求的边际成本永远不会是零。
这是产品团队正在默默绕过的约束。而他们选择的路线几乎总是错误的。
静默退化的失效模式
面对“我们负担不起重度用户”时的默认反应是在不告知他们的情况下进行限流。这些模式现在已经屡见不鲜:
- 静默回答截断。 智能体在思考中途停止,因为触发了隐藏的 Token 上限。用户重试,得到了不同的截断,最后得出结论:模型不太稳定。
- 隐藏的模型降级。 高成本用户一旦跨过某个内部阈值,就会被悄悄从旗舰模型路由到廉价模型。他们的任务开始以无法复现的方式失败 。
- 模糊的速率限制文案。 “你已达到限制,请稍后再试。”没有配额数值,没有重置时间,不知道什么算作一次“使用”。用户只能发起支持工单,因为别无他法。
- 无告知的峰值时段限流。 在办公时间内重新分配容量;付费订阅者发现他们的工作流变差了,而 UI 上没有任何信号表明发生了变化。
其中的每一个都是同样的失败:产品的成本约束已传导至用户可见但无法理解的行为中。成本天花板是真实的,但不透明则是人为的选择。支持工单也从“AI 错了”变成了更糟糕的抱怨:“AI 甚至不愿尝试。”
2025 年来自计费平台的实地报告明确指出:阻碍客户采用 AI 的最大障碍不是价格,而是价格的不可预测性——买家无法预测支出,管理员无法推断哪些操作会消耗额度,终端用户无法区分哪些功能是免费的、哪些是计费的。78% 的 IT 负责人表示对现有 SaaS 账单中的 AI 费用感到意外。焦虑并非源于成本,而是源于未知。
作为产品原语的钱包
解决方法不是一个账单页面。而是像对待产品关心的任何其他状态一样对待用户的预算——在 UI 中可见、可变且可寻址。
一个起作用的 AI 钱包有四个界面:
针对昂贵操作的预检成本预览。 在启动深度的智能体运行之前,用户会看到“此任务预计消耗 12 个额度——你的余额为 340”。这个数字不需要完全准确,但必须存在。用户可以容忍偏差,但不能容忍不知道自己即将花费多少。
单项功能透明度,而非单一资金池。 “本月你使用了 60% 的额度”对用户毫无用处。“你在智能体运行上使用了 4,200 个额度,在对话上使用了 800 个额度”则能告诉他们应该削减什么、升级什么以及他们真正看重什么。重度用户尤其需要这一点——他们会围绕它优化工作流,而只有当你给他们正确的维度时,他们才能正确地进行优化。
带升级路径的用户自定义预算上限。 不是“你被限流了”,而是“你为每个任务设置了 500 个额度的上限,本次运行需要 800 个——现在扩容或接受更小的方案”。上限属于用户,而覆盖上限是一个深思熟虑的选择,而不是不透明的速率限制。
以公示价格订阅更深层次的推理。 这是隐藏在成本界面中的增售机会。“支付更多以获得更好的答案”是一条真实的产品线。Replit 的 Economy/Power/Turbo 智能体模式、v0 的 Mini/Pro/Max 模型层级,以及 ChatGPT 式的“深度思考(extended thinking)”开关都符合同一种形态:用户选择深度,价格明码标价,权衡由他们自己决定。
关键在于停止假装成本维度不存在。它确实存在。无论用户是否看到,他们都在为此付费。当你隐藏它时,你付出的代价是用户流失和支持工单。当你暴露它时,你就可以为此收费。
Cursor 在 2025 年的转型究竟给行业带来了什么启示
2025 年 6 月,Cursor 在没有过渡期的情况下,从基于请求的限制迁移到了基于额度(credit)的系统。现有用户一觉醒来发现收到了未经授权的账单。由于反弹非常剧烈,公司在三周内就发布了道歉声明,澄清了规则,并退还了多收的费用。
产品团队从中汲取的教训是错误的。教训并不是“基于额度的定价是充满敌意的”。Cursor 的更高级别方案——Pro+ 拥有三倍的额度池,Ultra 拥有二十倍——正是证明 AI 钱包(wallet)模式合理性的增值销售路径。公司最终确实推出了这些方案,而重度用户现在会根据需求自行选择。
真正的教训是,在约束生效之前,钱包必须已经存在。如果用户第一次看到 Token 余额是在耗尽的那一刻,并且伴随着意外扣费,那么该产品就失败了两次——一次是隐藏了计量器,另一次是将其作为一种惩罚来引入。处理得比较得当的团队,如 Replit 和 v0,从第一天起就公布了模型层级和额度成本,并将模型选择变成了一种带有显式价格标签的刻意用户行为。
另一个较少被提及的教训是,背着用户偷偷选择最便宜模型的“自动(Auto)”模式,其实是缺乏钱包功能的一种权宜之计。它们只有在用户发现答案质量下降之前才有效。诚实的做法是让用户自己选择,并按需计费。
Anthropic 的容量危机揭示了隐藏计量器的后果
2026 年初关于 Claude 使用限制的反弹,是一个关于产品存在约束却拒绝将其显性化的案例研究。Pro 和 Max 订阅者开始遇到以前不存在的会话限制。这些限制在美国办公时间内变得更加严格。Anthropic 发布的文件并未反映这种新行为,而作为高容量选项进行市场推广的 Max 级别方案,竟然完全没有显示使用情况计量器。
反复出现的投诉并不是“限制太紧了”,而是“我不知道还剩多少,所以我无法规划工作进度,导致我无法使用我付费购买的服务”。一次提示词就可能让用户的会话进度从 21% 飙升到 100%。模型做出了决定,而用户在事后才知晓。
钱包本可以使同样的约束变得可以接受。用户本可以看到成本预览,决定该提示词是否值得,然后选择支出预算或节省预算。成本上限在两种情况下都没有改变,改变的是用户与成本上限之间的关系。
这种情况具有普遍性。每一个增长到一定规模的 AI 产品都会遇到容量或单位经济(unit-economics)的约束,从而迫使部分用户减少消耗。约束本身不是缺陷(bug),让受约束影响的人看不到约束才是缺陷。
钱包的设计原则
如果你正从头开始构建这个界面,以下几条原则非常有用:
- 在表面显示钱包,而不是藏在设置菜单里。 一个常驻的小指标——剩余额度、当前运行预估——永远优于隐藏的余额。
- 使用用户可理解的单位进行报价。 “Token” 是泄漏的抽象。“额度” 只要有定义就没问题。而“这次运行的成本大约相当于三条聊天消息”则更好。请根据你用户已经理解的单位进行转换。
- 在操作前让价格可知。 一个大致准确的事前预估优于一个 精确无误的事后账单。偏差是可以接受的,但意外不行。
- 将上限(Cap)与速率限制(Rate Limit)解耦。 上限是用户的选择(“在此任务上的支出不超过 X”)。速率限制是基础设施的问题。在 UI 中将两者混为一谈会让用户为他们无法参与的基础设施决策而自责。
- 将模型选择器视为价格选择器。 如果你的产品提供多个模型,价格应该出现在名称旁边。“使用 Pro 获得更高质量(3 倍额度)”是信息;“使用 Pro 获得更高质量”则是营销。
- 公开每个功能的支出。 总余额无法告诉用户需要改变哪些行为。按功能切分能将钱包变成用户可以操作的工具。
- 故障切换要透明,不要沉默。 如果你必须降级或截断,请告知用户。“已切换到较小的模型以匹配你的预算——是否扩充?”是一种体验。而一个默不作声的糟糕答案则是一个缺陷。
贯穿所有这些原则的主线是相同的:用户拥有权衡利弊的权利。产品团队的工作是让这种权衡清晰可见,而不是代表用户做决定。
战略解读
隐藏成本是防守举动,公开成本则是进攻举动。一旦钱包成为产品中一个真实存在的界面,以下三件事就会变得可能:
- 重度用户可以在不重新协商计划的情况下购买更多。 贡献了 80% 支出的那 5% 用户成为了支付比例最高的人群,而且他们是自愿的,因为升级只是显而易见的下一次点击,而不是一场尴尬的销售会谈。
- 普通用户不再会意外触发 限制。 曾经是新用户留存杀手的限流体验消失了,因为他们可以看到计量器并自行调节进度。
- 产品可以发布更昂贵的功能。 更深层次的 Agent 运行、更大的上下文窗口、更长的链条——任何在固定方案下会导致单位经济崩溃的功能——现在都变得可以发布了,因为成本由选择产生这些费用的用户承担。
在未来 18 个月内悟出这一点的 AI 产品将与那些没悟出的产品大相径庭。没悟出的产品将继续从利润中支付成本上限,继续流失那些在没有任何解释的情况下触发限制的用户,并继续构建没人信任的隐藏限流基础设施。而那些悟出的产品将把成本界面视为产品,像打磨产品一样发布它,并针对它进行定价。
成本上限不会消失,唯一的选择是是否让用户看到它。
- https://cursor.com/help/models-and-usage/usage-limits
- https://forum.cursor.com/t/usage-limits-detail/135512
- https://www.fintechweekly.com/magazine/articles/cursor-pricing-change-user-backlash-refund
- https://www2.techtalkhawke.com/news/claude-ai-adds-throttling-to-max-users-but-with-no-transparecy
- https://www.webpronews.com/the-invisible-squeeze-anthropics-claude-is-rationing-ai-access-and-paying-customers-are-furious/
- https://docs.replit.com/billing/managing-spend
- https://v0.app/docs/pricing
- https://www.chargebee.com/blog/pricing-ai-agents-playbook/
- https://metronome.com/blog/ai-pricing-in-practice-2025-field-report-from-leading-saas-teams
- https://www.statsig.com/perspectives/tokenusagetrackingcontrollingaicosts
- https://www.cloudzero.com/blog/ai-agent-pricing-models/
- https://www.drivetrain.ai/post/unit-economics-of-ai-saas-companies-cfo-guide-for-managing-token-based-costs-and-margins
