Embedding API 的 “隐藏税”:为什么向量支出在不知不觉中超过了生成成本
我在上个季度交谈过的一个团队在财务伙伴指出 AI 账单时陷入了短暂的恐慌。他们原以为,像大多数团队一样,昂贵的支出项会是生成——即聊天、总结和智能体推理背后的 GPT 级调用。事实并非如此。他们的每月 Embedding 支出在 1 月悄然超过了生成支出,到 3 月翻了一番,并有望在年中翻两番。没有人为此建模,因为 Embedding 模型的每 Token 定价看起来就像舍入误差:小型模型每百万 Token 2 美分,大型模型 13 美分。按照这个费率,谁会为此做预算?
答案是:任何产品度过了原型阶段并开始大规模索引内容的团队。在不断增长的语料库上进行语义搜索、重复检测、分类、聚类、更换模型时的重新索引——每一个工作负载消耗的 Embedding Token 都是以十亿计,而不是以百万计。与受用户请求限制的生成不同,Embedding 的吞吐量仅受你决定索引的内容限制。而这一决定很少经过成本审查。
本篇文章将探讨 Embedding 支出升级的具体机制、改变成本曲线的架构杠杆,以及从托管 API 转向自建服务的盈亏平衡计算。
