检索引用税：为什么合规性会增加 30% 的 RAG Token 账单

2026年5月14日 · 阅读需 12 分钟

Software Engineer

我最近交流过的一个团队向一家财富 500 强公司的内部法务办公室出售了他们的法律 AI 产品，并在系统提示词中增加了一行：“每一个事实性陈述必须包含对检索源的内联引用。”产品路线图为这种新行为分配了 5% 的 Token 预算缓冲。在该受监管租户上线 60 天后，财务部门标记了每月推理支出激增了 34%。没有人搞坏产品。没有人发布新功能。这项促成交易的合规要求，也悄然改写了其背后的单位经济效益。

这就是检索引用税，几乎每个服务于受监管行业——法律、医疗、金融、有审计约束的企业——的 RAG 系统最终都要支付这笔费用。这笔税收是结构性的，而不是 Bug。它源于引用纪律迫使模型进入了一种不同的生成模式，而且它在客户签署的采购规范中无处可寻。

如果你只盯着每个 Token 的价格，你就会完全错过它。模型并没有变得更贵。提示词变贵了，输出变贵了，检索集也变贵了，这一切同时发生，因为要求“标明出处”并不是一个 UX 开关——它是推理管道中三个不同部分的乘数。

为什么“引用你的来源”是一种生成模式，而不是一条指令

当你告诉模型引用时，四个方面会同时发生变化，而只有第一个是显而易见的。

输出变得更长。 带引用的生成用改写替代了自信的总结。原本会写“该计划要求住院治疗需预先授权”的模型，现在会写“根据计划文档第 4.2 节 [doc-127:p14]，住院治疗需要预先授权，在 §4.2.1 中被定义为超过 23 小时的留宿 [doc-127:p15]。”事实内容相同，大约是输出 Token 的 2.4 倍。这是所有人首先看到的成本项，因为输出 Token 通常按最高费率计费。

检索到的分块实际上出现了两次。 一次出现在提示词的检索块中，另一次——经过改写——出现在响应中。模型无法在不引用或近乎引用的情况下引用一个分块，因为引用必须在下游是可验证的。因此，检索到的上下文变成了输出的部分模板，而不仅仅是背景依据。在强制引用模式下的生产系统 Token 经济学研究表明，这种重复开销占总响应长度的 15–25%。

检索数量 K 值上升。 没有引用时，你可以追求精确度：检索 5 个分块，希望前两个能回答问题。有了引用，遗漏一个相关的分块意味着模型要么引用错误的来源，要么对自己无法证实的陈述含糊其辞，而审计审查员会标记这一点。因此，团队会悄悄将 K 从 5 提高到 10 甚至 15，使检索块增加一倍或两倍。检索账单（向量数据库、重排序 pass、检索分块本身的提示词输入 Token）随 K 扩展，而不是随答案。

注意力变得分散。 随着检索集变大，模型的注意力必须在每个陈述上覆盖更多范围。一些团队通过在系统提示词中增加“彻底引用每一个陈述”的强化要求来补偿，这进一步拉长了响应。Anthropic 和 Contextual AI 在过去两年的落地性 (groundedness) 研究表明，这是一种真实的权衡：更严格的落地约束使知识密集型任务的响应长度增加 20–40%，这甚至还没算上显式的引用标记。

将这些累加起来，你得到的不是 5% 的开销。你会得到输入 Token 的乘数（更大的 K）、输出 Token 更大的乘数（改写 + 规避 + 引用标记），以及推理前工作的微小但真实的增长。25–40% 的生产账单跳升是典型的落地情况。在某些受监管的工作负载中——如案例法研究、医疗索赔裁定、审计追踪重建——一旦你开启了采购要求的严格落地模式下的引用功能，费用会增加 50% 甚至更多。

无人定价的引用质量问题

这里的关键在于，引用税是结构性的，而不是通过提示词工程就能解决的：引用本身往往是错误的，而发现错误又需要另一轮推理成本。

过去一年对法律和医疗 RAG 的研究收敛到了一个令人不安的数字——大约 50% 到 90% 的 LLM 生成的引用并不能完全支持它们所附带的陈述。LegalBench-RAG 是法律领域最常被引用的评估基准，它显示商业平台表现挣扎：Westlaw AI 的引用准确率为 58%，Lexis+ AI 为 64%，即使是专门构建的研究助手，最高也只能达到 80% 左右。引用错误的陈述比没有引用更糟糕，因为引用创造了一种可验证的假象，未经核对的用户会信任它。

因此，要求引用的合规计划也要求引用精度的评估，这意味着需要重新运行模型（通常是一个更强大的模型）作为评判者，以验证每个引用是否真的支持其陈述。那是每个响应的又一次推理过程，而且在评判者不同意的 20–40% 的响应中，还要加上一次重新生成的 pass。“可验证答案”的 SLA 实际上为你每次高风险响应开出了三次模型调用的账单：生成、验证、修复。

将引用定价为系统提示词附加项的团队会在生产环境中发现这一点。而将其定价为结构性成本的团队，从第一天起就将其构建在产品层级中。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

检索引用税：为什么合规性会增加 30% 的 RAG Token 账单

为什么“引用你的来源”是一种生成模式，而不是一条指令

无人定价的引用质量问题

Recommended Reading

关于 Tian Pan

为什么“引用你的来源”是一种生成模式，而不是一条指令​

无人定价的引用质量问题​

Recommended Reading

关于 Tian Pan

为什么“引用你的来源”是一种生成模式，而不是一条指令

无人定价的引用质量问题