AI 钱包：为什么 Token 预算应放在 UI 中，而非工程仪表盘里

2026年5月9日 · 阅读需 12 分钟

Software Engineer

打开任何采用固定订阅制的 AI 产品的单用户成本仪表盘。其形状总是一样的：一条长长的、几乎无法产生显著影响的扁平尾部，以及顶部一个细长的尖峰—— 5% 的账户消耗了 80% 的推理预算。这个尖峰对处于两端的两类用户都是隐藏的。重度用户不知道自己在补贴其他人——他们以为价格就是那个价格。轻量用户不知道他们可以要求更多——他们以为限制就是那个限制。

仪表盘始终保留在工程团队内部，因为产品经理担心暴露它会吓跑用户。但事实恰恰相反。隐藏成本的团队最终会推出无声的限流、隐藏的模型降级以及导致用户认为“这产品坏了”的答案截断。而那些将成本作为刻意的 UI 界面（而非后台管理页）展示出来的团队，则能将同样的成本上限从流失驱动因素转变为商业化杠杆。

这就是 AI 钱包。它不是一个账单页面，而是一个产品原语（product primitive）。

无处不在的帕累托法则

5/80 的分配并不是理论上的。这是每个按量计费的 AI 产品在上线第一个季度的生产数据中都会发现的情况。少数用户在紧密循环中运行智能体（agent），在每个任务中都动用最大的模型，并进行链式推理直到获得他们想要的精确答案。其他用户则每周打开几次应用，问一个问题，然后关闭标签页。

固定费率订阅假装这两个群体是同一类客户。但单元经济学（unit economics）告诉我们事实并非如此。传统的 SaaS 毛利率在 80–90% 之间，因为一旦分配了席位，下一次请求的边际成本几乎为零。AI 产品的毛利率则在 50–60% 之间——有时甚至更低——因为每个提示（prompt）在 Token 上都有切实的成本，而且该成本随着提示长度、回答长度和并发量的增加而上升。下一次请求的边际成本永远不会是零。

这是产品团队正在默默绕过的约束。而他们选择的路线几乎总是错误的。

静默退化的失效模式

面对“我们负担不起重度用户”时的默认反应是在不告知他们的情况下进行限流。这些模式现在已经屡见不鲜：

静默回答截断。 智能体在思考中途停止，因为触发了隐藏的 Token 上限。用户重试，得到了不同的截断，最后得出结论：模型不太稳定。
隐藏的模型降级。 高成本用户一旦跨过某个内部阈值，就会被悄悄从旗舰模型路由到廉价模型。他们的任务开始以无法复现的方式失败。
模糊的速率限制文案。 “你已达到限制，请稍后再试。”没有配额数值，没有重置时间，不知道什么算作一次“使用”。用户只能发起支持工单，因为别无他法。
无告知的峰值时段限流。 在办公时间内重新分配容量；付费订阅者发现他们的工作流变差了，而 UI 上没有任何信号表明发生了变化。

其中的每一个都是同样的失败：产品的成本约束已传导至用户可见但无法理解的行为中。成本天花板是真实的，但不透明则是人为的选择。支持工单也从“AI 错了”变成了更糟糕的抱怨：“AI 甚至不愿尝试。”

2025 年来自计费平台的实地报告明确指出：阻碍客户采用 AI 的最大障碍不是价格，而是价格的不可预测性——买家无法预测支出，管理员无法推断哪些操作会消耗额度，终端用户无法区分哪些功能是免费的、哪些是计费的。78% 的 IT 负责人表示对现有 SaaS 账单中的 AI 费用感到意外。焦虑并非源于成本，而是源于未知。

作为产品原语的钱包

解决方法不是一个账单页面。而是像对待产品关心的任何其他状态一样对待用户的预算——在 UI 中可见、可变且可寻址。

一个起作用的 AI 钱包有四个界面：

针对昂贵操作的预检成本预览。 在启动深度的智能体运行之前，用户会看到“此任务预计消耗 12 个额度——你的余额为 340”。这个数字不需要完全准确，但必须存在。用户可以容忍偏差，但不能容忍不知道自己即将花费多少。

单项功能透明度，而非单一资金池。 “本月你使用了 60% 的额度”对用户毫无用处。“你在智能体运行上使用了 4,200 个额度，在对话上使用了 800 个额度”则能告诉他们应该削减什么、升级什么以及他们真正看重什么。重度用户尤其需要这一点——他们会围绕它优化工作流，而只有当你给他们正确的维度时，他们才能正确地进行优化。

带升级路径的用户自定义预算上限。 不是“你被限流了”，而是“你为每个任务设置了 500 个额度的上限，本次运行需要 800 个——现在扩容或接受更小的方案”。上限属于用户，而覆盖上限是一个深思熟虑的选择，而不是不透明的速率限制。

以公示价格订阅更深层次的推理。 这是隐藏在成本界面中的增售机会。“支付更多以获得更好的答案”是一条真实的产品线。Replit 的 Economy/Power/Turbo 智能体模式、v0 的 Mini/Pro/Max 模型层级，以及 ChatGPT 式的“深度思考（extended thinking）”开关都符合同一种形态：用户选择深度，价格明码标价，权衡由他们自己决定。

关键在于停止假装成本维度不存在。它确实存在。无论用户是否看到，他们都在为此付费。当你隐藏它时，你付出的代价是用户流失和支持工单。当你暴露它时，你就可以为此收费。

Cursor 在 2025 年的转型究竟给行业带来了什么启示

2025 年 6 月，Cursor 在没有过渡期的情况下，从基于请求的限制迁移到了基于额度（credit）的系统。现有用户一觉醒来发现收到了未经授权的账单。由于反弹非常剧烈，公司在三周内就发布了道歉声明，澄清了规则，并退还了多收的费用。

产品团队从中汲取的教训是错误的。教训并不是“基于额度的定价是充满敌意的”。Cursor 的更高级别方案——Pro+ 拥有三倍的额度池，Ultra 拥有二十倍——正是证明 AI 钱包（wallet）模式合理性的增值销售路径。公司最终确实推出了这些方案，而重度用户现在会根据需求自行选择。

真正的教训是，在约束生效之前，钱包必须已经存在。如果用户第一次看到 Token 余额是在耗尽的那一刻，并且伴随着意外扣费，那么该产品就失败了两次——一次是隐藏了计量器，另一次是将其作为一种惩罚来引入。处理得比较得当的团队，如 Replit 和 v0，从第一天起就公布了模型层级和额度成本，并将模型选择变成了一种带有显式价格标签的刻意用户行为。

另一个较少被提及的教训是，背着用户偷偷选择最便宜模型的“自动（Auto）”模式，其实是缺乏钱包功能的一种权宜之计。它们只有在用户发现答案质量下降之前才有效。诚实的做法是让用户自己选择，并按需计费。

Anthropic 的容量危机揭示了隐藏计量器的后果

2026 年初关于 Claude 使用限制的反弹，是一个关于产品存在约束却拒绝将其显性化的案例研究。Pro 和 Max 订阅者开始遇到以前不存在的会话限制。这些限制在美国办公时间内变得更加严格。Anthropic 发布的文件并未反映这种新行为，而作为高容量选项进行市场推广的 Max 级别方案，竟然完全没有显示使用情况计量器。

反复出现的投诉并不是“限制太紧了”，而是“我不知道还剩多少，所以我无法规划工作进度，导致我无法使用我付费购买的服务”。一次提示词就可能让用户的会话进度从 21% 飙升到 100%。模型做出了决定，而用户在事后才知晓。

钱包本可以使同样的约束变得可以接受。用户本可以看到成本预览，决定该提示词是否值得，然后选择支出预算或节省预算。成本上限在两种情况下都没有改变，改变的是用户与成本上限之间的关系。

这种情况具有普遍性。每一个增长到一定规模的 AI 产品都会遇到容量或单位经济（unit-economics）的约束，从而迫使部分用户减少消耗。约束本身不是缺陷（bug），让受约束影响的人看不到约束才是缺陷。

钱包的设计原则

如果你正从头开始构建这个界面，以下几条原则非常有用：

在表面显示钱包，而不是藏在设置菜单里。 一个常驻的小指标——剩余额度、当前运行预估——永远优于隐藏的余额。
使用用户可理解的单位进行报价。 “Token” 是泄漏的抽象。“额度” 只要有定义就没问题。而“这次运行的成本大约相当于三条聊天消息”则更好。请根据你用户已经理解的单位进行转换。
在操作前让价格可知。 一个大致准确的事前预估优于一个精确无误的事后账单。偏差是可以接受的，但意外不行。
将上限（Cap）与速率限制（Rate Limit）解耦。 上限是用户的选择（“在此任务上的支出不超过 X”）。速率限制是基础设施的问题。在 UI 中将两者混为一谈会让用户为他们无法参与的基础设施决策而自责。
将模型选择器视为价格选择器。 如果你的产品提供多个模型，价格应该出现在名称旁边。“使用 Pro 获得更高质量（3 倍额度）”是信息；“使用 Pro 获得更高质量”则是营销。
公开每个功能的支出。 总余额无法告诉用户需要改变哪些行为。按功能切分能将钱包变成用户可以操作的工具。
故障切换要透明，不要沉默。 如果你必须降级或截断，请告知用户。“已切换到较小的模型以匹配你的预算——是否扩充？”是一种体验。而一个默不作声的糟糕答案则是一个缺陷。

贯穿所有这些原则的主线是相同的：用户拥有权衡利弊的权利。产品团队的工作是让这种权衡清晰可见，而不是代表用户做决定。

战略解读

隐藏成本是防守举动，公开成本则是进攻举动。一旦钱包成为产品中一个真实存在的界面，以下三件事就会变得可能：

重度用户可以在不重新协商计划的情况下购买更多。 贡献了 80% 支出的那 5% 用户成为了支付比例最高的人群，而且他们是自愿的，因为升级只是显而易见的下一次点击，而不是一场尴尬的销售会谈。
普通用户不再会意外触发限制。 曾经是新用户留存杀手的限流体验消失了，因为他们可以看到计量器并自行调节进度。
产品可以发布更昂贵的功能。 更深层次的 Agent 运行、更大的上下文窗口、更长的链条——任何在固定方案下会导致单位经济崩溃的功能——现在都变得可以发布了，因为成本由选择产生这些费用的用户承担。

在未来 18 个月内悟出这一点的 AI 产品将与那些没悟出的产品大相径庭。没悟出的产品将继续从利润中支付成本上限，继续流失那些在没有任何解释的情况下触发限制的用户，并继续构建没人信任的隐藏限流基础设施。而那些悟出的产品将把成本界面视为产品，像打磨产品一样发布它，并针对它进行定价。

成本上限不会消失，唯一的选择是是否让用户看到它。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 钱包：为什么 Token 预算应放在 UI 中，而非工程仪表盘里

无处不在的帕累托法则

静默退化的失效模式

作为产品原语的钱包

Cursor 在 2025 年的转型究竟给行业带来了什么启示

Anthropic 的容量危机揭示了隐藏计量器的后果

钱包的设计原则

战略解读

Recommended Reading

关于 Tian Pan

无处不在的帕累托法则​

静默退化的失效模式​

作为产品原语的钱包​

Cursor 在 2025 年的转型究竟给行业带来了什么启示​

Anthropic 的容量危机揭示了隐藏计量器的后果​

钱包的设计原则​

战略解读​

Recommended Reading

关于 Tian Pan

无处不在的帕累托法则

静默退化的失效模式

作为产品原语的钱包

Cursor 在 2025 年的转型究竟给行业带来了什么启示

Anthropic 的容量危机揭示了隐藏计量器的后果

钱包的设计原则

战略解读