检索引用税:为什么合规性会增加 30% 的 RAG Token 账单
我最近交流过的一个团队向一家财富 500 强公司的内部法务办公室出售了他们的法律 AI 产品,并在系统提示词中增加了一行:“每一个事实性陈述必须包含对检索源的内联引用。”产品路线图为这种新行为分配了 5% 的 Token 预算缓冲。在该受监管租户上线 60 天后,财务部门标记了每月推理支出激增了 34%。没有人搞坏产品。没有人发布新功能。这项促成交易的合规要求,也悄然改写了其背后的单位经济效益。
这就是检索引用税,几乎每个服务于受监管行业——法律、医疗、金融、有审计约束的企业——的 RAG 系统最终都要支付这笔费用。这笔税收是结构性的,而不是 Bug。它源于引用纪律迫使模型进入了一种不同的生成模式,而且它在客户签署的采购规范中无处可寻。
如果你只盯着每个 Token 的价格,你就会完全错过它。模型并没有变得更贵。提示词变贵了,输出变贵了,检索集也变贵了,这一切同时发生,因为要求“标明出处”并不是一个 UX 开关——它是推理管道中三个不同部分的乘数。
为什么“引用你的来源”是一种生成模式,而不是一条指令
当你告诉模型引用时,四个方面会同时发生变化,而只有第一个是显而易见的。
输出变得更长。 带引用的生成用改写替代了自信的总结。原本会写“该计划要求住院治疗需预先授权”的模型,现在会写“根据计划文档第 4.2 节 [doc-127:p14],住院治疗需要预先授权,在 §4.2.1 中被定义为超过 23 小时的留宿 [doc-127:p15]。”事实内容相同,大约是输出 Token 的 2.4 倍。这是所有人首先看到的成本项,因为输出 Token 通常按最高费率计费。
检索到的分块实际上出现了两次。 一次出现在提示词的检索块中,另一次——经过改写——出现在响应中。模型无法在不引用或近乎引用的情况下引用一个分块,因为引用必须在下游是可验证的。因此,检索到的上下文变成了输出的部分模板,而不仅仅是背景依据。在强制引用模式下的生产系统 Token 经济学研究表明,这种重复开销占总响应长度的 15–25%。
检索数量 K 值上升。 没有引用时,你可以追求精确度:检索 5 个分块,希望前两个能回答问题。有了引用,遗漏一个相关的分块意味着模型要么引用错误的来源,要么对自己无法证实的陈述含糊其辞,而审计审查员会标记这一点。因此,团队会悄悄将 K 从 5 提高到 10 甚至 15,使检索块增加一倍或两倍。检索账单(向量数据库、重排序 pass、检索分块本身的提示词输入 Token)随 K 扩展,而不是随答案。
注意力变得分散。 随着检索集变大,模型的注意力必须在每个陈述上覆盖更多范围。一些团队通过在系统提示词中增加“彻底引用每一个陈述”的强化要求来补偿,这进一步拉长了响应。Anthropic 和 Contextual AI 在过去两年的落地性 (groundedness) 研究表明,这是一种真实的权衡:更严格的落地约束使知识密集型任务的响应长度增加 20–40%,这甚至还没算上显式的引用标记。
将这些累加起来,你得到的不是 5% 的开销。你会得到输入 Token 的乘数(更大的 K)、输出 Token 更大的乘数(改写 + 规避 + 引用标记),以及推理前工作的微小但真实的增长。25–40% 的生产账单跳升是典型的落地情况。在某些受监管的工作负载中——如案例法研究、医疗索赔裁定、审计追踪重建——一旦你开启了采购要求的严格落地模式下的引用功能,费用会增加 50% 甚至更多。
无人定价的引用质量问题
这里的关键在于,引用税是结构性的,而不是通过提示词工程就能解决的:引用本身往往是错误的,而发现错误又需要另一轮推理成本。
过去一年对法律和医疗 RAG 的研究收敛到了一个令人不安的数字——大约 50% 到 90% 的 LLM 生成的引用并不能完全支持它们所附带的陈述。LegalBench-RAG 是法律领域最常被引用的评估基准,它显示商业平台表现挣扎:Westlaw AI 的引用准确率为 58%,Lexis+ AI 为 64%,即使是专门构建的研究助手 ,最高也只能达到 80% 左右。引用错误的陈述比没有引用更糟糕,因为引用创造了一种可验证的假象,未经核对的用户会信任它。
因此,要求引用的合规计划也要求引用精度的评估,这意味着需要重新运行模型(通常是一个更强大的模型)作为评判者,以验证每个引用是否真的支持其陈述。那是每个响应的又一次推理过程,而且在评判者不同意的 20–40% 的响应中,还要加上一次重新生成的 pass。“可验证答案”的 SLA 实际上为你每次高风险响应开出了三次模型调用的账单:生成、验证、修复。
将引用定价为系统提示词附加项的团队会在生产环境中发现这一点。而将其定价为结构性成本的团队,从第一天起就将其构建在产品层级中。
- https://medium.com/@praneeth.v/index-rag-citation-first-approach-to-rag-0e948b9e12c1
- https://www.techment.com/blogs/rag-in-2026/
- https://arxiv.org/abs/2603.14170
- https://dasroot.net/posts/2026/04/streaming-rag-token-citations-pulsar-redis/
- https://medium.com/@Nexumo_/rag-for-healthcare-claims-that-doesnt-lie-54e91b3e0e49
- https://tobin.yale.edu/sites/default/files/2026-01/CS_LAW_LaborBench_20260113.pdf
- https://arxiv.org/abs/2408.10343
- https://contextual.ai/blog/introducing-grounded-language-model
- https://www.deepset.ai/blog/rag-llm-evaluation-groundedness
- https://docs.aws.amazon.com/prescriptive-guidance/latest/agentic-ai-serverless/grounding-and-rag.html
- https://www.silicondata.com/blog/llm-cost-per-token
- https://thesoogroup.com/blog/hidden-cost-of-llm-apis-token-economics
