跳到主要内容

免费层级滥用经济学:当你的 AI 慷慨被机器人拖垮

· 阅读需 12 分钟
Tian Pan
Software Engineer

一位创业公司的 CTO 某天早晨检查 OpenAI 后台,发现了一张 67,000 美元的账单。他们往常的月账单是 400 美元。产品层面没有任何变化 —— 没有爆火的发布,没有新功能,也没有营销活动。变化的是,攻击者识别了他们的端点指纹,从构建产物中获取了泄露的密钥,并将推理服务以低于零售价 40-60% 的价格转卖给那些支付加密货币的买家。创业公司付了账单,而攻击者赚取了差价。

这不是 SaaS 创始人互相传颂的典型免费层滥用故事。典型故事是:少数重度用户滥用了慷慨的试用,流失率飙升,你收紧限制,单位经济效益在一个季度内恢复。这套剧本在 AI 产品上已经过时了。当你针对匿名请求的单位成本不再实际上为零,且你的慷慨一旦可以被变现,这种数学模型就崩塌了。

为什么 SaaS 时代的免费层策略在推理面前失效了

二十年来,免费层策略基于一个简单的假设:每个活跃用户的边际成本微乎其微。一个免费的 Dropbox 账号每年只需花费 Dropbox 几美分的存储费。一个免费的 Slack 工作区只需消耗容器上一小部分 CPU。构建产品的固定成本占主导地位,而通过向少数付费用户收费来摊销这些成本,是分发产品的手段。

LLM 推理颠倒了这一比例。每一个匿名请求都在消耗你用真金白银支付的 GPU 时间 —— H100 算力的租赁价格在每小时 1.49 美元到 6.98 美元之间,具体取决于承诺使用量,而且一个长上下文查询可能会占用单个芯片几秒钟的算力。没有任何超额订阅的技巧能让生成 token 的成本低于边际电力、硬件折旧以及云服务商定价中包含的利润。

《2026 年 FinOps 现状报告》指出,AI 是增长最快的新支出类别,73% 的受访者表示 AI 成本超出了最初的预算预测。这种模式并非预测失误。而是 SaaS 时代的启发式方法 —— 设置慷慨的免费层、优化注册转化、两年后再担心成本 —— 在应用到每一个交互都根据 GPU 时间计费的产品时,会立即产生加速亏损。

当推理提供商自己在 2026 年初开始取消免费层时 —— Chutes 在 2 月 27 日关闭了免费层,Z.ai 涨价超过 30% —— 他们并不是经营失败。他们是在承认一个显而易见的事实:保持无限免费推理的提供商并不是慷慨,他们是将免费用户视为产品,而推理账单最终总要结算。

现在的机器人不再是以前的机器人

全球约一半的网络流量现在是机器人,其中相当一部分流量专门用于抓取 AI 端点。经济规律决定了这是必然的:攻击者一旦发现保护不足的免费层或泄露了 API 密钥,就可以将其转卖换取现金,而且转售的基础设施已经非常成熟。

黑市已经实现了工业化。在地下论坛上,被盗的 LLM 凭证每个账号售价约 30 美元。买家通过像开源的 oai-reverse-proxy 这样的工具进行路由,该工具接受付费客户的 API 调用,通过盗取的凭证转发给合法提供商,并返回响应,而不会暴露底层的密钥。买家永远看不到凭证。凭证的所有者支付账单。代理运营商赚取差价。

成本数据并非虚构。Sysdig 最初的 LLMjacking 研究记录了被盗的 Claude 2.x 凭证每天产生 46,080 美元的成本。针对 Claude 3 Opus 的攻击将这一数字推高至每天 100,000 美元以上。从 GitHub 上公开提交凭证到其首次被滥用的中位时间不足 4 分钟 —— 比大多数 CI 流水线运行完毕的速度还要快,更不用说人工发现泄露的时间了。

对于没有 API 密钥的免费层,滥用模式有所不同,但经济原理相似。攻击者运营指纹多样化的注册流水线,通过轮换的住宅 IP 铸造数千个账号,每个账号消耗额度允许的所有配额。匿名用户的单位成本在任何意义上都不再为零,因为攻击者已经实现了将“匿名”转化为“他人的付费流量”的自动化。

真正经得起考验的速率限制

传统的速率限制 —— 每个 IP 每小时 N 次请求 —— 在面对传统的 API 滥用时已经很脆弱。面对拥有住宅代理池和加密货币预算的攻击者,它纯粹是摆设。AI 产品的真实速率限制需要结合多种信号,单一信号都无法奏效。

基于账号密钥的限制配合冷启动摩擦。 按照 API 密钥或认证用户 ID 而不是 IP 进行速率限制。对于未经身份验证的免费层流量,限制账号的 创建,而不只是使用。你要保护的昂贵资源是推理;廉价的上游防御是提高铸造新身份的成本。

按操作成本分层的限制。 100 个 token 的补全和 100K token 的 Agent 循环不是同一种请求。常见的实现方式是根据成本分值进行限制 —— 输入 token 加上输出 token 的倍数 —— 而不是原始请求计数。这可以防止攻击者利用每分钟发起一次昂贵请求的技巧来规避请求计数上限。

带成本上限的突发吸收。 令牌桶(Token-bucket)限制允许短时间的突发,但对每个账号每天强制执行全局成本上限。当诚信用户粘贴长文档时,突发限制能让他们满意;而上限则能防止同一账号在泄露后被武器化。

基于异常的节流。 针对每个账号的行为模型会标记突然的变化 —— 地理位置迁移、请求模式熵值骤降、切换到程序化的定时分布 —— 并将该账号降级到较慢的层级,而不是立即封禁。针对可疑滥用的正确做法很少是硬性封禁(这会提醒攻击者),而是悄无声息的服务质量降级,这能在不确认检测的情况下破坏其转售经济效益。

作为成本平衡器的工作量证明 (PoW)

传统的验证码(CAPTCHA)旨在区分人类和机器人。这场战争已基本结束。现代多模态模型能以接近人类的准确度破解图像验证码,而验证码破解 API 则能以不到一分钱的价格提供人机协同的破解服务。对于 AI 服务来说,区分人类和机器人已不再是核心问题。真正的问题在于,请求者是否愿意为每次请求支付微小的成本。

工作量证明(Proof-of-work)改变了这种不对称性。真实用户的浏览器可以在后台 WebWorker 中用约 200 毫秒的时间解决 SHA-256 挑战 —— 这一过程是无感的。而一个试图批量创建 10,000 个账号的爬虫则必须解决 10,000 个唯一的挑战,并为每次尝试支付 CPU 时间成本。像 ALTCHA 和 Cap 这样的开源 PoW 系统使得这种方案的部署摩擦力足够低,可以被放置在注册、登录和免费层级推理端点之前。仅 Cap 一家就报告在 2026 年第一季度处理了 10 亿次挑战。

这里的逻辑很简单:调整 PoW 难度,让诚实用户只需支付几毫秒的代价,而让攻击者支付数秒。攻击者的单账号成本 —— 代理 IP、PoW 计算以及任何手机验证步骤 —— 必须超过新账号在二次销售市场上的价值。目标不是让滥用变得不可能,而是让滥用变得无利可图。当攻击者每个账号的预期收入低于其预期成本时,滥用行为就会自然停止。

这就是为什么“无感”的 PoW 比游戏化谜题方案更重要的原因。真实用户可见的摩擦会直接导致注册流失,增长团队最终会赢得那场争论。而对真实用户无感但对机器人来说成本高昂的摩擦,才是唯一持久的立场。

行为指纹:避开隐私灾难

“指纹”是一个带有负面色彩的词。如果处理不当,它会演变成一种监视姿态,引发监管关注并破坏用户信任。如果处理得当,它就是一个信号层,能将“正常设备上的真实人类”与“两秒前在数据中心 ASN 中启动的无头 Chromium”区分开来 —— 且无需持久地识别个人身份。

真正具有权重的信号是环境相关的:ASN 分类(数据中心 vs 住宅 vs 移动运营商)、TLS 指纹一致性、在无头自动化环境下会失败的浏览器 API 完整性检查、看起来不像人类反应时间的请求时间分布,以及注册页面上鼠标和键盘事件的行为熵。单一信号往往带有噪音,但结合成每个会话的风险评分后,它们能可靠地识别出驱动大多数免费层级滥用的批量账号创建模式。

诀窍在于将评分用于限流(throttling),而非直接封锁(blocking)。高风险会话不会收到“你是机器人”的错误提示,而是会被分配到速度较慢的免费层级、面对更具侵略性的 PoW 挑战以及更严格的每日 Token 上限。使用特殊设置的真实用户只会感受到略微增加的摩擦,而攻击者则会发现其经济模型失效了。由于没有人会得到关于哪些信号触发了评分的公开反馈,攻击者也就无法针对你的检测器进行优化。

无人愿意承担的组织内部张力

这一切最困难的部分在于内部。增长团队的考核指标是注册量、激活率和付费转化率。本文提到的每项防御措施都会降低其中至少一项指标,有时降幅还很显著。基础架构团队的考核指标则是推理成本,在观察到的最坏情况下,滥用行为会将成本推高 10-50%。这两个记分板指向相反的方向,且这种冲突几乎从未被明确化解。

更健康的框架是将推理成本也纳入增长团队的账单。当每个注册用户的推理成本成为增长团队拥有的指标 —— 而不仅仅是注册量时 —— 权衡就变成了一种正常的优化,而不是一场争斗。负责“免费层级注册产生的每美元推理成本”的团队才有动力去评估,某个特定的摩擦步骤是否值得其转化成本。而只负责分子(注册量)的团队永远会反对任何摩擦。

一个有用的运营节奏:按注册群体对免费层级推理成本进行仪表化监控,每周与增长和基础架构团队共享,并将任何推理成本超过预定阈值的群体视为需要调查的缺陷。大多数情况下,调查会发现一些无聊的原因 —— 限流器 Bug、浪费上下文 Token 的配置错误提示词,或是吸引了低意图流量的营销渠道。有时,调查会发现你本该通过意外发票才能察觉的滥用管道。

免费层级并未消亡,消亡的是“免费午餐”

免费层级对 AI 产品仍然有效,只是不能再无条件提供。2026 年成功的模式是“有条件的慷慨”:一个具有严格单账号上限的真实免费层级,隐藏在根据账号转售价值校准过摩擦力的真实注册之后,其速率限制将身份验证与操作成本相结合。

这种转变主要是心态上的。SaaS 创始人学会了将免费视为具有已知获客成本(CAC)的营销支出。AI 创始人则需要将免费视为包含“滥用税”在内的直接 GPU 支出。一旦这些数据出现在仪表盘上,合适的限制就会自动成型 —— 下次有人提议“让我们通过提供免费推理来带动漏斗顶端流量”时,讨论的焦点将是群体数据是否可行,而不是创始人今天是否慷慨。

攻击者经济将继续成熟。被盗凭证市场会变得更高效,账号创建管道会变得更廉价,随着竞争出现,转售利润将被压缩。这没关系。防御不需要完美,它只需要让滥用保持在边际利润以下,从而确保那份可预测的、复合增长的推理账单是为你真正想要的客户买单。

References:Let's stay in touch and Follow me for more thoughts and updates