跳到主要内容

2 篇博文 含有标签「unit-economics」

查看所有标签

单次正确成本,而非 Token 成本:账单不会告诉你的单位指标

· 阅读需 13 分钟
Tian Pan
Software Engineer

我认识的一个团队在上个季度通过将支持邮件分类流程从顶级模型(frontier model)迁移到中级模型,将推理费用降低了 40%。CFO 还专门发了感谢信。六个月后,客户支持团队增加了两名全职员工(FTE),平均解决时间上升了 35%。没有人把这些点联系起来,因为这些“点”分布在不同的仪表盘上:推理费用在平台团队的仪表盘上,而支持工作量在运营团队的仪表盘上。在所有人都在追踪的唯一指标上,这次迁移看起来是一次胜利。但指标错了。

这就是“单 Token 成本”(cost-per-token)陷阱。你的账单告诉你花了多少钱在 Token 上,但它无法告诉你每个“正确”任务花了多少钱,因为推理供应商根本不知道在你的领域里什么是“正确”。他们卖给你的是原始算力。而你买的是结果——或者你以为你买的是结果。这两个单位之间的差距,就是 AI 单元经济(unit economics)悄然崩溃的地方。如果不去衡量正确的分母,团队就只算了一半的账,而在另一半的交付上处于盲目状态。

小费罐问题:当 5% 的用户消耗了 80% 的推理预算时

· 阅读需 14 分钟
Tian Pan
Software Engineer

一位开发者在每月 200 美元的套餐下跑出了超过 35,000 美元的计算费用。这是对单一用户 175 倍的补贴——由那些本可以愉快地使用 19 美元档位的普通大众买单。这是每一个“为什么本季度我们的 AI 毛利率是负的?” Slack 讨论串背后支撑的数学逻辑。问题不在于那一个用户;而在于那一类用户的长尾效应遵循幂律分布,而幂律分布加上固定费率计费,再加上真实的单位成本,构成了一个任何增长都无法修复的结构性毛利压缩器。

当这种情况出现在财务审查中时,下意识的反应就是收紧:严格的 Token 上限、埋在服务条款(TOS)里的“公平使用”措辞、每周限流、为免费层级悄悄降级模型。这些手段在止损方面确实有效。但它们也会疏远你所依赖的那些布道者用户,因为触及上限的人正是那些真正搞清楚了如何从你的产品中提取价值的人。标准的做法是向错误的群体致以一份向后兼容的道歉。