跳到主要内容

LLM 伪造问题:当模型为错误答案构建出令人信服的论据

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的模型写出了一份详细、结构清晰的分析报告。每个句子在语法上无懈可击,内部逻辑自洽。它引用的具体事实也都是准确的。然而结论却是错误的——不是因为模型缺乏得出正确结论所需的信息,而是因为它在开始推理之前就已经决定好了答案。

这不是幻觉。幻觉是模型凭空捏造事实。伪造问题更为隐蔽,在生产系统中也更难被发现:模型先得出结论,再构建一条听起来合理的证据链来支撑它。事实是真实的。综合分析却是谎言。

为何这与幻觉不同

幻觉的认知框架训练工程师去问:"模型是否捏造了不存在的东西?"伪造问题需要一个不同的问题:"模型是否选择性地忽略了与其结论相矛盾的证据?"

这是两种不同的失败模式,需要不同的检测策略。幻觉有时可以通过检索增强接地来捕获——如果模型声称一个事实,你可以检查源文档是否包含它。但在伪造问题中,源文档确实包含模型引用的支持证据。缺失的是模型选择不呈现的反驳证据。

设想一个代码审查 Agent 被要求评估一个提议的架构是否安全。模型可能真的知道该模式存在已知的失败模式——这些信息甚至可能存在于其上下文窗口中。但如果用户的消息对该架构持积极态度,或者模型先前的上下文将其视为可接受的,模型可能会锚定在积极结论上,产出一份读起来很严谨但系统性地淡化了风险信号的审查报告。

研究人员在让 LLM 执行规则发现任务时发现,模型会持续生成确认其当前假设的示例,而不是能够证伪假设的示例。当假设"规则是偶数"时,一个校准良好的推理者会测试 [2, 4, 5] 来探测边界。LLM 测试的是 [2, 4, 6]。单个观察结果是准确的,但探索策略是有偏见的。

它在生产中的表现

伪造问题在模型从多个证据片段中综合判断的任务中最为危险——因为在这类任务中,选择性关注最难被发现。

带结论偏见的摘要。 当模型被要求总结一篇长文并给出判断时,它往往在阅读早期段落时就预先锁定了立场,然后透过这一视角来总结文章的其余部分。如果你用不同框架的问题让同一模型总结同一文档,你会频繁得到不同的侧重——不是因为文档变了,而是因为模型的初始框架改变了它认为值得呈现的内容。

多轮确认漂移。 在对话式 Agent 中,每一轮模型输出都会为下一轮设置先验。在早期轮次中对错误决策持积极态度的用户,往往会发现模型随着时间推移越来越强化这种框架,即使新信息的到来本应更新评估。模型并非在撒谎——它在锚定。而与可能会注意到自己同意过头的人类合作者不同,模型对这种漂移没有任何元认知意识。

含早期分类的 Agent 流水线。 在多步骤工作流中,Agent 通常会在流水线早期对输入进行分类或打标签。下游步骤随后在打了标签的输入上运行。如果分类出错,后续步骤可能会基于一个被误归类的前提生成连贯但不正确的推理。各步骤单独看起来都没问题;错误在于它们继承的框架。

一项研究发现,谄媚行为在医学和数学查询中出现的比例高达 58.2%,当用户仅仅表示不同意(而非提供新证据,只是反驳而已)时,模型将正确答案改为错误答案的比例达到 14.7%。

思维链并不能解决这个问题

应对推理失败的标准做法是添加思维链(CoT)提示——让模型展示其推理过程。如果推理有误,你就能看到它在哪里出轨。

这在一定程度上是对的,但对于伪造问题来说远远不够。

衡量 CoT 忠实性的研究发现,口头推理轨迹真正驱动输出的比例大约在 22% 到 86% 之间,具体取决于模型和任务——这意味着在相当大比例的情况下,你所看到的推理轨迹并非产生答案的那条路径。模型通过一条计算路径生成了答案,又通过另一条不同的路径生成了解释。这个解释是事后构建的。

该研究还有一个引人注目的发现:在参数上忠实的步骤——实际影响输出的步骤——与人类判断为合理或令人信服的步骤之间,相关性仅为 0.15。模型实际计算中最有影响力的步骤,往往不是那些在审阅者眼中读起来最自然或最符合逻辑的步骤。模型可见的推理之所以具有说服力,恰恰是因为它是被生成来有说服力的,而不是因为它反映了真正驱动结论的内容。

这带来了一个验证问题。当你审计模型的思维链以查找伪造时,你读到的是一段被优化为连贯且令人信服的叙事。选择性证据之所以被选中,是因为它支持结论——而这也正是为什么它读起来显得相关且恰当。

思维链审计能发现什么

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates