当 RAG 让你的 AI 变差:创造力与事实锚定的权衡
某家产品公司的团队为市场部门构建了一款头脑风暴助手。他们在文档语料库——营销简报、品牌指南、竞品分析——上添加了 RAG,认为更丰富的上下文会产出更好的创意。三周后,使用率下降了。定性反馈如下:输出"太安全"、"太可预测"、"感觉只是在重混我们现有的东西"。他们从头脑风暴功能中移除了检索。创意改善了,参与度也恢复了。
这种模式在实践中出现的频率远比人们承认的要高。检索增强生成已成为将 LLM 输出锚定到事实的默认架构,对于事实性任务,它当之无愧。但对于生成类任务——创意构思、创意写作、新颖方案生成——添加检索层可能会悄然压低模型产出的上限。这不是因为检索坏了,而恰恰是因为它按照设计在正常运转。
检索如何限制生成的搜索空间
要理解为什么检索会损害创意输出,你需要建立一个模型来理解检索对生成过程实际上做了什么。
当你将检索到的文档注入提示词时,你制造了一种锚定效应。锚定效应在人类认知中有充分记录——你遇到的第一条信息会不成比例地影响此后所有判断。LLM 表现出同样的偏差。2024–2025 年的实验研究表明,检索到的内容不仅以预期的方向约束生成(减少幻觉),还以一种意想不到的方向约束生成:它缩小了输出的语义范围。模型会在检索内容附近的空间中探索,而不是在没有检索锚点时会穿越的完整潜在空间中探索。
对于事实性任务,这种收窄正是目的所在。当回答"合同中的付款条款是什么?"时,你希望模型紧贴检索到的证据。锚点就是答案。但对于"有什么真正新颖的方式来处理这个产品定位问题?"这样的提示,锚点与新颖性相互竞争。关于你现有定位的检索文档会将输出拉回语料库中已有的模式。
第二个机制是同质化。最新对 LLM 输出多样性的研究表明,即使生成式 AI 辅助的输出在个体质量指标上可能得分更高,它们彼此之间也会变得更加相似。个体创造力可能提升,而集体新颖性却在下降。当使用同一检索语料库的每个团队生成的创意都锚定在相同的文档上时,输出空间的总和便会收缩。你在相关性上做了优化,却在新颖性轴上陷入了局部最优。
判断你是否处于"检索有害区"的实证信号
这种失败模式很容易被忽视,因为标准的 RAG 评估指标无法捕捉到它。检索相关性得分上升了,事实准确性提高了,用户得到的输出与查询高度相关。但创意工作的质量却在一个你没有测量的维度上退化了。
在你的评估和用户反馈中留意以下信号:
语义多样性压缩。 如果你将同一创意提示的多个生成结果嵌入并计算两两之间的距离,启用 RAG 的输出会比禁用 RAG 的输出聚集得更紧密。这是可测量的。每当你构建生成类功能时,将其作为评估指标与相关性和准确性并行运行。
创意任务上的领域收敛。 让用户跨领域生成创意,并追踪概念落地的位置。RAG 倾向于将输出限制在检索文档所属的领域内。要求"跨学科方法"的用户会得到领域内的建议,因为检索从他们现有的语料库中拉取,而该语料库按定义就存在于他们的领域中。
定性用户信号下降而定量指标保持稳定。 这种不匹配是最清晰的诊断信号。如果一个创意功能的参与度下降,而你的相关性和准确性评估看起来正常,检索可能是罪魁祸首。"太安全、太衍生"的抱怨,正是实践者对这种失败模式的模式匹配。
A/B 测试反转。 在开放式提示的用户偏好或任务完成度上,RAG 变体表现不如无检索变体的功能。头脑风暴、概念生成和创意写作是这种反转最常出现的任务类型。
一个具体的校准案例:在网络搜索可用但非强制的通用头脑风暴任务测试场景中,禁用搜索的输出始终被描述为更机智、更令人惊喜、更具差异化。检索本身在运作——它将输出锚定在真实世界的内容中——但对于这个任务而言,锚定本身就是错误的目标。
