复合幻觉问题:多阶段 AI 流水线如何放大错误
大多数关于幻觉的研究都集中在单次模型调用的输出上。这种框架忽略了一个更可怕的问题:在四阶段的工作流(pipeline)中,如果每个阶段都无条件地信任前一个阶段的输出,会发生什么。第一阶段中一个虚构的事实不仅会持续存在,还会成为后续每一次推理的承重前提。到第四阶段,工作流会给出一个自信且逻辑自洽的答案,但结果却是完全错误的。
这不是一个可以通过更强大的模型来解决的能力问题。这是一个系统架构问题,需要从系统层面进行修复。
为什么单个阶段的质量无法预测工作流的质量
这是一个实际发生的“一致性陷阱”。对 GPT-4 的研究显示了一个惊人的现象:当每个陈述被孤立评估时,模型可以正确识别大约 87% 的自身错误。单独向它展示一个虚构的事实,它通常能发现错误。但如果强迫模型与其之前的错误陈述保持一致,它的错误检测能力就会崩溃。模型将内部连贯性置于事实准确性之上。
这不是 bug——而是序列建模的工作原理。语言模型训练的目标是生成与上下文一致的 token。当第二阶段接收到第一阶段的幻觉作为输入时,该幻觉就变成了上下文。第二阶段的任务是与输入保持一致,而不是对其进行事实核查。
实际后果是:由各阶段独立可靠的工作流在系统层面可能会发生灾难性的失败。每个阶段都会通过增加推理、细节和信心标识来放大错误。当输出到达用户手中时,最初的错误事实已经被深埋在三层分析之下,而这些分析看起来严丝合缝——唯一的问题是地基是烂的。
经验数据使这一点变得可量化。基准 RAG 工作流显示幻觉传播因子为 1.43——这意味着错误在流向下游时被放大了 43%。关键在于,这个数字并不是固定的。设计良好且具备适当验证架构的多阶段系统可以将传播因子降低到 0.94,这意味着工作流实际上是在纠正错误而不是复合错误。这种差异完全源于架构设计。
四阶段失效模式
让我们来看一个具体的例子。一个研究工作流正在处理关于一家公司历史的查询:
第一阶段(信息提取): 模型检索并合成公司的背景信息。它幻觉出公司成立于 1985 年。而实际成立年份是 1995 年。
第二阶段(分析): 将第一阶段的输出视为事实真相(ground truth),该阶段基于 1985 年这个日期 展开。它推理出公司在“互联网泡沫时期的第一个十年”以及其“30 年的业绩记录”。该阶段的分析逻辑自洽——只不过是基于一个错误的前提。
第三阶段(综合): 借鉴第二阶段的分析,该阶段得出关于公司风险文化的结论,引用其“前互联网时代的创立”作为早期保守战略的证据。这个结论看似合理、推导严密,但却是错误的。
第四阶段(输出生成): 最后阶段生成一份精美的报告。幻觉出的 1985 年成立日期现在支撑着三层分析。移除它将导致整个叙事崩溃。输出读起来非常权威。
这种模式之所以危险,不仅是因为输出是错误的,更因为它具有“说服力”。跨越四个阶段产生的内部一致性使得结果看起来比单阶段幻觉更可信。工作流伪造了自己的佐证。
这就是为什么基于 AI 构建的企业团队发现,39% 的 AI 客服部署由于幻觉相关的故障而被撤回或重新开发——以及为什么 76% 的企业现在在 AI 输出接触客户之前会先进行人工审核。
驱动放大效应的三种机制
了解这些机制有助于你在正确的点进行干预。
RAG 工作流中的检索器-生成器差距。 对于惊人高比例的查询(研究表明在 47–67% 之间),生成器会忽略检索器排名前列的文档,转而依赖参数化记忆。当检索器返回准确信息而生成器忽略它时,生成器会产生幻觉,后续阶段将该幻觉视为检索到的事实真相,检索的整个目的就落空了。这造成了两步失败:首先是生成器偏离了事实真相 ,然后是工作流放大了这种偏离。
Agent 系统中的子意图功能失调。 Agent 工作流将复杂任务分解为按顺序排列的子任务,每个子任务都以其前序任务的成功完成为前提。当早期的子任务产生幻觉输出时——例如识别错误的实体、错误的 API 调用结果、伪造的工具响应——每个依赖它的子任务都会在这一“有毒前提”下运行。这种失败不是随机噪声,而是通过依赖图进行的结构化错误传播。
扩展推理放大。 与直觉相反,启用更长的推理链可能会增加复合幻觉的风险。当模型进行扩展的思维链(chain-of-thought)推理时,它们会生成更多的中间步骤,其中每一步都可能引入错误,并由后续步骤复合。对“推理陷阱”的研究表明,增强的推理能力实际上会放大 Agent 系统中的工具幻觉率——模型通过推理对自己错误的答案产生了更大的信心。
构建阶段边界验证门
最有效的架构干预是在流水线阶段之间插入验证检查点,而不是仅在最终输出时进行评估。关键设计原则包括:
使用与生成器不同的验证器。 如果阶段 2 产生了输出,不要让阶段 2 去验证它。生成了连贯但错误分析的同一个模型,往往会倾向于将其验证为连贯的。请使用不同的模型、确定性的基于规则的检查或结构化的蕴含评分器(entailment scorer)。独立性才是关键——验证器需要脱离导致原始错误的生成上下文。
在片段(span)级别而非文档级别验证断言。 文档级验证(“这个回答看起来合理吗 ?”)能捕捉到明显的失败,但会遗漏导致复合问题的细微事实错误。片段级验证将特定的断言溯源至源文档,并标记那些未基于检索内容的断言。这种方法成本更高,但是唯一能在错误传播之前可靠检测到初始错误的方法。
- https://arxiv.org/abs/2305.13534
- https://arxiv.org/html/2510.06265v1
- https://arxiv.org/html/2510.24476v1
- https://arxiv.org/html/2509.18970v1
- https://arxiv.org/abs/2309.11495
- https://pmc.ncbi.nlm.nih.gov/articles/PMC12540348/
- https://aclanthology.org/2024.emnlp-industry.113.pdf
- https://arxiv.org/html/2510.22977v1
- https://wand.ai/blog/compounding-error-effect-in-large-language-models-a-growing-challenge
- https://arxiv.org/html/2601.22984v1
- https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models
- https://galileo.ai/blog/best-hallucination-detection-tools-llm
