跳到主要内容

当 RAG 让你的 AI 变差:创造力与事实锚定的权衡

· 阅读需 10 分钟
Tian Pan
Software Engineer

某家产品公司的团队为市场部门构建了一款头脑风暴助手。他们在文档语料库——营销简报、品牌指南、竞品分析——上添加了 RAG,认为更丰富的上下文会产出更好的创意。三周后,使用率下降了。定性反馈如下:输出"太安全"、"太可预测"、"感觉只是在重混我们现有的东西"。他们从头脑风暴功能中移除了检索。创意改善了,参与度也恢复了。

这种模式在实践中出现的频率远比人们承认的要高。检索增强生成已成为将 LLM 输出锚定到事实的默认架构,对于事实性任务,它当之无愧。但对于生成类任务——创意构思、创意写作、新颖方案生成——添加检索层可能会悄然压低模型产出的上限。这不是因为检索坏了,而恰恰是因为它按照设计在正常运转。

检索如何限制生成的搜索空间

要理解为什么检索会损害创意输出,你需要建立一个模型来理解检索对生成过程实际上做了什么。

当你将检索到的文档注入提示词时,你制造了一种锚定效应。锚定效应在人类认知中有充分记录——你遇到的第一条信息会不成比例地影响此后所有判断。LLM 表现出同样的偏差。2024–2025 年的实验研究表明,检索到的内容不仅以预期的方向约束生成(减少幻觉),还以一种意想不到的方向约束生成:它缩小了输出的语义范围。模型会在检索内容附近的空间中探索,而不是在没有检索锚点时会穿越的完整潜在空间中探索。

对于事实性任务,这种收窄正是目的所在。当回答"合同中的付款条款是什么?"时,你希望模型紧贴检索到的证据。锚点就是答案。但对于"有什么真正新颖的方式来处理这个产品定位问题?"这样的提示,锚点与新颖性相互竞争。关于你现有定位的检索文档会将输出拉回语料库中已有的模式。

第二个机制是同质化。最新对 LLM 输出多样性的研究表明,即使生成式 AI 辅助的输出在个体质量指标上可能得分更高,它们彼此之间也会变得更加相似。个体创造力可能提升,而集体新颖性却在下降。当使用同一检索语料库的每个团队生成的创意都锚定在相同的文档上时,输出空间的总和便会收缩。你在相关性上做了优化,却在新颖性轴上陷入了局部最优。

判断你是否处于"检索有害区"的实证信号

这种失败模式很容易被忽视,因为标准的 RAG 评估指标无法捕捉到它。检索相关性得分上升了,事实准确性提高了,用户得到的输出与查询高度相关。但创意工作的质量却在一个你没有测量的维度上退化了。

在你的评估和用户反馈中留意以下信号:

语义多样性压缩。 如果你将同一创意提示的多个生成结果嵌入并计算两两之间的距离,启用 RAG 的输出会比禁用 RAG 的输出聚集得更紧密。这是可测量的。每当你构建生成类功能时,将其作为评估指标与相关性和准确性并行运行。

创意任务上的领域收敛。 让用户跨领域生成创意,并追踪概念落地的位置。RAG 倾向于将输出限制在检索文档所属的领域内。要求"跨学科方法"的用户会得到领域内的建议,因为检索从他们现有的语料库中拉取,而该语料库按定义就存在于他们的领域中。

定性用户信号下降而定量指标保持稳定。 这种不匹配是最清晰的诊断信号。如果一个创意功能的参与度下降,而你的相关性和准确性评估看起来正常,检索可能是罪魁祸首。"太安全、太衍生"的抱怨,正是实践者对这种失败模式的模式匹配。

A/B 测试反转。 在开放式提示的用户偏好或任务完成度上,RAG 变体表现不如无检索变体的功能。头脑风暴、概念生成和创意写作是这种反转最常出现的任务类型。

一个具体的校准案例:在网络搜索可用但非强制的通用头脑风暴任务测试场景中,禁用搜索的输出始终被描述为更机智、更令人惊喜、更具差异化。检索本身在运作——它将输出锚定在真实世界的内容中——但对于这个任务而言,锚定本身就是错误的目标。

任务分类法:何时锚定,何时生成

每个触及检索的功能都需要回答的核心问题是:这个输出的质量意味着什么?这个问题几乎可以直接映射到检索是帮助还是伤害。

受真实答案约束的任务——事实性问答、文档查询、政策解读、针对现有代码库的代码生成——在你的语料库中存在正确答案。检索将输出空间收窄至该答案,这正是预期行为。精确性和准确性是正确的优化目标。

受偏好约束的任务——写作辅助、特定风格的摘要、模板填充——有目标风格或约束,检索可以服务于此。有选择地注入示例。这里的风险较低,但检索过多示例仍可能以压平输出的方式锚定语调和结构。

受探索约束的任务——头脑风暴、创意构思、新颖方案生成、创意写作——按定义在你的语料库中没有真实答案。如果答案存在,你早就有了。这些任务需要模型在远离现有模式的语义空间中穿行。检索与任务目标背道而驰。

实际的分类法并非二元对立。大多数功能结合了三种类型的元素。产品路线图助手既需要在现有客户数据上进行事实锚定,也需要为新方向提供生成范围。失败模式在于将整个功能视为事实性的,而高价值的输出恰恰是探索性的。

选择性锚定策略

一旦确定某个功能的生成组件因检索而受损,你有三类干预手段:门控、多样化和选择性注入。

检索门控控制检索是否对给定查询触发。最简单的版本是意图分类:将事实性查询路由到 RAG 管道,将生成性查询路由到无检索管道。更复杂的系统让模型本身来决定——Self-RAG 是典型案例,模型生成反思 token 来决定是否为每个生成片段进行检索。创意片段不接收检索上下文;事实片段则锚定于证据。结果:在检索有害的地方获得流畅性和新颖性,在需要准确性的地方得到锚定。

多样性偏置检索改变的不是是否检索,而是检索什么。与其按相似性取前 K 个——这会拉取最接近现有语料库的文档——不如在语义空间的多样化样本中检索。面向研究创意的探索性检索在系统推向外部领域而非获取最相似的现有论文时,新颖性提升约 20%。关键的反转是:对于生成性任务,检索到遥远概念的检索比检索到相似概念的检索更有价值。

选择性上下文注入在单个声明的粒度上应用检索,而非在整个提示层面。分解生成任务:哪些元素需要事实锚定(统计数据、日期、专有名词、技术规格),哪些是生成性的(框架、解读、创意连接组织)?仅对事实性子任务注入检索。实现复杂度更高——你需要一个显式的分解步骤,或一个能内部区分何时需要外部证据的模型——但这是能同时兑现准确性和新颖性的架构。

这对你的构建方式意味着什么

更广泛的含义是:检索是一种具有方向性效果的设计选择,而非免费的改进。"添加 RAG"已成为改进 LLM 功能的默认建议,对于广泛的任务类别而言,这个默认值是正确的。但正确的心智模型是:检索将输出分布向检索语料库中的内容移动。对于这种移动有益的任务,RAG 有帮助;对于这种移动有害的任务,RAG 有害。

实际推论是:你的评估套件需要针对每种任务类型衡量真正重要的东西。如果你在相关性和准确性上评估头脑风暴功能——这正是大多数 RAG 评估框架的优化方向——你将优化到失败模式。语义多样性、相对于语料库的新颖性,以及开放式任务中的用户偏好,才是能捕捉到退化的指标。

如果你在构建跨越事实和生成需求的功能,有三件事需要实施:

首先,对任何创意功能并行运行多样性指标和相关性指标。追踪各次生成之间的两两语义距离。如果 RAG 在压缩这个距离,你就有证据来证明架构变更的合理性。

其次,对具有开放式提示的功能明确进行检索存在与否的 A/B 测试。不要假设 RAG 是有益的。测试成本低;而交付一个同质化头脑风暴工具的产品代价则不然。

第三,对于既需要锚定又需要新颖性的功能,默认使用门控而非始终开启的检索。一旦考虑到生成任务的退化,始终开启检索的安全论据就比表面上看起来的要弱。只在模型需要外部证据时才触发的选择性检索方法,在保留优势的同时消除了大部分创意天花板效应。

那个从头脑风暴功能中移除检索的团队做出了正确的决定。他们只是不得不凭经验去发现这一点,因为他们没有框架来预测它。你不需要重复同样的实验——如果你在构建之前就将任务类型映射到检索行为,这个权衡是可以预测的。

References:Let's stay in touch and Follow me for more thoughts and updates