跳到主要内容

免费层级滥用经济学:当你的 AI 慷慨被机器人拖垮

· 阅读需 12 分钟
Tian Pan
Software Engineer

一位创业公司的 CTO 某天早晨检查 OpenAI 后台,发现了一张 67,000 美元的账单。他们往常的月账单是 400 美元。产品层面没有任何变化 —— 没有爆火的发布,没有新功能,也没有营销活动。变化的是,攻击者识别了他们的端点指纹,从构建产物中获取了泄露的密钥,并将推理服务以低于零售价 40-60% 的价格转卖给那些支付加密货币的买家。创业公司付了账单,而攻击者赚取了差价。

这不是 SaaS 创始人互相传颂的典型免费层滥用故事。典型故事是:少数重度用户滥用了慷慨的试用,流失率飙升,你收紧限制,单位经济效益在一个季度内恢复。这套剧本在 AI 产品上已经过时了。当你针对匿名请求的单位成本不再实际上为零,且你的慷慨一旦可以被变现,这种数学模型就崩塌了。

为什么 SaaS 时代的免费层策略在推理面前失效了

二十年来,免费层策略基于一个简单的假设:每个活跃用户的边际成本微乎其微。一个免费的 Dropbox 账号每年只需花费 Dropbox 几美分的存储费。一个免费的 Slack 工作区只需消耗容器上一小部分 CPU。构建产品的固定成本占主导地位,而通过向少数付费用户收费来摊销这些成本,是分发产品的手段。

LLM 推理颠倒了这一比例。每一个匿名请求都在消耗你用真金白银支付的 GPU 时间 —— H100 算力的租赁价格在每小时 1.49 美元到 6.98 美元之间,具体取决于承诺使用量,而且一个长上下文查询可能会占用单个芯片几秒钟的算力。没有任何超额订阅的技巧能让生成 token 的成本低于边际电力、硬件折旧以及云服务商定价中包含的利润。

《2026 年 FinOps 现状报告》指出,AI 是增长最快的新支出类别,73% 的受访者表示 AI 成本超出了最初的预算预测。这种模式并非预测失误。而是 SaaS 时代的启发式方法 —— 设置慷慨的免费层、优化注册转化、两年后再担心成本 —— 在应用到每一个交互都根据 GPU 时间计费的产品时,会立即产生加速亏损。

当推理提供商自己在 2026 年初开始取消免费层时 —— Chutes 在 2 月 27 日关闭了免费层,Z.ai 涨价超过 30% —— 他们并不是经营失败。他们是在承认一个显而易见的事实:保持无限免费推理的提供商并不是慷慨,他们是将免费用户视为产品,而推理账单最终总要结算。

现在的机器人不再是以前的机器人

全球约一半的网络流量现在是机器人,其中相当一部分流量专门用于抓取 AI 端点。经济规律决定了这是必然的:攻击者一旦发现保护不足的免费层或泄露了 API 密钥,就可以将其转卖换取现金,而且转售的基础设施已经非常成熟。

黑市已经实现了工业化。在地下论坛上,被盗的 LLM 凭证每个账号售价约 30 美元。买家通过像开源的 oai-reverse-proxy 这样的工具进行路由,该工具接受付费客户的 API 调用,通过盗取的凭证转发给合法提供商,并返回响应,而不会暴露底层的密钥。买家永远看不到凭证。凭证的所有者支付账单。代理运营商赚取差价。

成本数据并非虚构。Sysdig 最初的 LLMjacking 研究记录了被盗的 Claude 2.x 凭证每天产生 46,080 美元的成本。针对 Claude 3 Opus 的攻击将这一数字推高至每天 100,000 美元以上。从 GitHub 上公开提交凭证到其首次被滥用的中位时间不足 4 分钟 —— 比大多数 CI 流水线运行完毕的速度还要快,更不用说人工发现泄露的时间了。

对于没有 API 密钥的免费层,滥用模式有所不同,但经济原理相似。攻击者运营指纹多样化的注册流水线,通过轮换的住宅 IP 铸造数千个账号,每个账号消耗额度允许的所有配额。匿名用户的单位成本在任何意义上都不再为零,因为攻击者已经实现了将“匿名”转化为“他人的付费流量”的自动化。

真正经得起考验的速率限制

传统的速率限制 —— 每个 IP 每小时 N 次请求 —— 在面对传统的 API 滥用时已经很脆弱。面对拥有住宅代理池和加密货币预算的攻击者,它纯粹是摆设。AI 产品的真实速率限制需要结合多种信号,单一信号都无法奏效。

基于账号密钥的限制配合冷启动摩擦。 按照 API 密钥或认证用户 ID 而不是 IP 进行速率限制。对于未经身份验证的免费层流量,限制账号的 创建,而不只是使用。你要保护的昂贵资源是推理;廉价的上游防御是提高铸造新身份的成本。

按操作成本分层的限制。 100 个 token 的补全和 100K token 的 Agent 循环不是同一种请求。常见的实现方式是根据成本分值进行限制 —— 输入 token 加上输出 token 的倍数 —— 而不是原始请求计数。这可以防止攻击者利用每分钟发起一次昂贵请求的技巧来规避请求计数上限。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates