跳到主要内容

AI功能的隐性税:你的推理账单没有告诉你的事

· 阅读需 11 分钟
Tian Pan
Software Engineer

当工程师推介AI功能时,成本讨论几乎总是围绕推理API展开。每个token多少钱?按预期调用量估算每月费用是多少?能否争取到批量折扣?这是一个错误的对话——或者至少是不完整的。

在实践中,推理账单大约占运行一个成熟AI功能实际成本的20-30%。其余成本分散在一系列不会出现在LLM提供商发票上的支出中:检索管道依赖的向量数据库、填充它的嵌入任务、捕捉静默失败的可观测性平台、验证模型输出的人工审核员,以及花费数周调整提示让一切正常运转的工程师。团队通常在上线六个月后才发现这一点——当他们试图解释一个比预测高出3-5倍的成本中心时。

本文梳理完整的成本栈。不是作为理论练习,而是作为一个运营框架,帮助你在AI功能投入生产之前真正理解其经济性。

推理账单是底线,而非上限

混乱从AI成本如何被引入团队开始。开发者原型化一个功能,测量token用量,乘以单价,然后提交成本估算。该估算对其所测量的内容是准确的。它没有测量的是其他所有事情。

考虑一个典型的生产RAG功能实际需要什么:

  • 嵌入生成,用于索引文档语料库(以及当文档变更时重新索引)
  • 向量数据库,以低延迟存储和查询这些嵌入
  • 跟踪日志,捕捉每一个提示、补全、延迟测量和成本事件
  • 检索评估管道,随语料库演变衡量召回率和精确率
  • 人工审核采样,捕捉自动化评估遗漏的模型输出
  • A/B测试基础设施,无需猜测即可运行提示实验
  • 构建、维护和改进以上所有内容的工程时间

这些都不会出现在你的OpenAI或Anthropic发票上。但都有真实的成本。

向量数据库:非线性扩展的成本

向量数据库是最常被低估的成本项。定价页面很容易阅读,但实际账单在实践中看起来大不相同。

在1000万向量的规模下,托管服务每月大约需要65-135美元,具体取决于提供商。听起来合理。但实际生产账单平均比初始估算高2.5-4倍,原因是查询量、存储开销以及"以防万一"过度配置索引容量的倾向。

成本结构在规模扩大时也会急剧变化。在1亿向量时,托管Pinecone超过每月700美元,而自托管的Milvus或pgvector实例——运行在你已经付费的基础设施上——可以保持在每月100美元以下。这是自建与购买的数学开始重要的地方。在现有PostgreSQL基础设施下不超过500万向量时,pgvector不需要额外成本;超过这个阈值,托管服务的便利性开始产生可量化的溢价。

架构含义:你对检索策略的选择也是成本选择。在没有对预期语料库大小和查询量建模的情况下默认选择托管向量数据库的团队,正在做出隐性的财务承诺,而他们往往直到账单到来才意识到这一点。

嵌入管道:看不见的计算任务

嵌入生成有两种成本模式:填充向量存储的初始索引运行,以及随语料库变化的持续重新索引。两者都很容易被低估。

text-embedding-3-small的当前定价为标准层每百万token 0.02美元,批量处理时降至0.01美元。text-embedding-3-large为标准/批量0.13/0.065美元。这些数字看起来很小,直到你将它们与包含数千万文档的语料库相乘。

索引平均500个token的1000万个文档意味着50亿个token。以标准层计算,初始运行花费100美元——但使用批量API只需50美元。更重要的是,每次进行全量重新索引时,这50美元都会重复发生,而随着文档在整个月中被更新、添加或删除,部分重新索引运行会不断累积。没有单独跟踪这一项的团队往往会注意到成本漂移,但将其错误归因于推理。

实际解决方案很简单:对所有非时间敏感的索引使用批量API(在24小时处理窗口内成本降低50%),并实施变更追踪索引,使重新索引运行只处理修改过的文档,而非整个语料库。

可观测性:了解正在发生什么的成本

你无法在没有可观测性的情况下运营生产AI系统。这一点毋庸置疑。问题在于你为此付出多少,以及是否考虑了它引入的开销。

LLM追踪平台——LangSmith每用户每月39美元,或Helicone和Langfuse等基于用量的选项(有慷慨的免费层)——是成本中容易处理的部分。更难处理的是实际捕捉追踪的基础设施成本。

在生产系统中记录完整的提示和补全可能会使有效token消耗翻倍。这不是理论上的担忧:你的日志摄取管道读取并存储每个输入和输出,在规模上每天产生数GB。日志存储成本不断累积。更关键的是,启用详细追踪日志而不对存储成本建模的团队,往往在数据基础设施账单增加30-60%的同时,可观测性覆盖率只有边际改善。

正确的方法是结构化采样:记录100%的元数据(延迟、模型、成本、错误代码),记录10-15%的完整追踪内容,并对高价值或异常会话进行完整日志记录。这能在不产生存储每个token两次的基础设施开销的情况下,为你提供调试和评估所需的覆盖率。

人工审核:无法自动化的成本

自动化评估是必要的,但还不够。人工审核——无论是质量抽样、安全检查,还是强化学习反馈——都带有难以优雅扩展的成本。

多轮对话样本的专业标注每个对话样本花费10-15美元。人工审核员进行内容审核的成本大约为每项0.63美元(基于每小时15美元的150秒审核)。这些数字看起来可以控制,直到你将其模型化到生产功能产生的数量级。

这个数学令人不安。一个每天处理100,000次交互的系统,即使只对0.1%进行人工审核,也会每天产生100个项目,或以审核费率每月大约2,300美元。这是一个真实的成本项目,不会出现在任何推理成本估算中。

更新的技术大幅降低了这一成本。AI辅助反馈代理(RLAIF方法)可以以每数据点不到0.01美元的成本替代大多数人工标注,相比人类反馈的1美元以上降低了100倍。有针对性的人类反馈(RLTHF)使用仅6-7%的人工标注努力实现了与完整标注相当的对齐效果。但对于安全关键或法律敏感的应用,残余的人工审核需求永远不会降至零,而且出错的成本几乎总是超过审核本身的成本。

提示工程人力:没有人建模的人头成本

提示工程人力是团队系统性地从TCO模型中排除的最大成本类别,因为它以薪资而非基础设施支出的形式出现。

2026年提示工程师的中位总薪酬约为每年126,000美元,高级从业者要求200,000美元以上。但即使在没有专职提示工程职能的团队中,高级工程师也会花费大量时间进行提示迭代。将其建模为高级工程师20-30%的时间,按每年200,000美元总薪酬计算,意味着每个AI功能每年有40,000-60,000美元的隐性人力成本——还未考虑功能集增长带来的复合复杂性。

这个成本还以意想不到的方式扩展。根据O'Reilly研究,微调项目的平均成本为127,000美元(包括标注、重训练和基础设施),耗时4.5个月完成——而且只有27%实现了承诺的改进。在大多数情况下,使用当前工具进行系统性提示优化的相同投资,能够以一小部分成本弥补更大比例的性能差距。

架构含义:微调既昂贵又经常失败。在穷尽提示优化空间之前,默认选择提示优化。

全成本归因框架

AI功能成本持续超出估算的原因,不是各个组件难以定价——它们大多不难。而是团队一次只对一个组件建模,而不是对完整的运营栈建模。

一个AI功能的完整成本模型有七个项目:

  1. 推理 — 按你的数量和层级计算的输入和输出token
  2. 嵌入 — 索引大小 × 重新索引频率 × 每个文档的token数
  3. 向量存储 — 语料库大小 × 查询量 × 提供商定价
  4. 可观测性 — 平台成本 + 追踪日志的存储开销
  5. 人工审核 — 采样率 × 数量 × 每审核项目成本
  6. 实验 — 提示迭代速度 × 工程师时间
  7. 人力 — 持续维护、调整和评估人员

在上线前建立这个模型,而不是从意外的账单中重建它,需要从一开始就像对待任何其他基础设施组件一样,以TCO严格性对待AI功能。

真正影响数字的架构决策

一旦你拥有完整的成本模型,优化机会就变得清晰了——而且它们大多是架构决策,而不是模型选择决策。

缓存具有最高的ROI。提示缓存(在支持的情况下)将缓存读取成本相比标准推理定价降低50-90%。应用层的语义缓存,结合预算感知路由,可以在生产系统中产生47%的总支出减少。设置成本通常只需几天的工程时间;回收期以周计算。

批量vs实时用于嵌入和推理是一个50%的成本杠杆。批量API定价在24小时处理窗口内将成本减半。任何不需要实时输出的工作负载——文档索引、批量摘要、夜间分析管道——都应该默认使用批量模式。

RAG vs上下文填充是一个更微妙的权衡。对于典型工作负载,调优良好的RAG比将原始文档填充到长上下文便宜8-82倍。某些提供商的统一费率长上下文定价在特定场景下改变了这个计算,但方向性指导仍然成立:检索相关内容,而不是包含所有内容并希望模型能找到它。

检索配置值得比通常更多的审查。糟糕的检索设置——获取太多块、在密集文档集上使用过大的上下文窗口——可能会使输入token成本膨胀3-4倍。调整top-k、块重叠和上下文窗口分配,既是成本优化,也是质量优化。

团队需要进行的预算对话

从研究AI功能成本超支中涌现出的模式是一致的:推理估算是准确的,其他所有内容都是未建模的。当完整的运营账单到来时,它比预测高3-5倍,分布在不属于原始成本对话的组件中。

解决方案不是更好的电子表格,而是从规划过程一开始就改变什么算作AI功能成本的框架。推理账单是入场券。向量基础设施、嵌入管道、可观测性、人工审核和工程人力是你付出的、可靠运行功能并随时间改进它的运营税。

在上线前对所有七个成本组件建模的团队不会消除意外——生产中总会有意外——但他们会消除那类在原型阶段看起来经济合理的功能,在规模化时却被证明在结构上无法盈利的意外。这是一套不同的、更可解决的问题。

将你初始AI基础设施预算的15-20%作为尚未建模成本的储备金。你会用到它的。

Let's stay in touch and Follow me for more thoughts and updates