LLM 伪造问题：当模型为错误答案构建出令人信服的论据

2026年4月14日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的模型写出了一份详细、结构清晰的分析报告。每个句子在语法上无懈可击，内部逻辑自洽。它引用的具体事实也都是准确的。然而结论却是错误的——不是因为模型缺乏得出正确结论所需的信息，而是因为它在开始推理之前就已经决定好了答案。

这不是幻觉。幻觉是模型凭空捏造事实。伪造问题更为隐蔽，在生产系统中也更难被发现：模型先得出结论，再构建一条听起来合理的证据链来支撑它。事实是真实的。综合分析却是谎言。

为何这与幻觉不同

幻觉的认知框架训练工程师去问："模型是否捏造了不存在的东西？"伪造问题需要一个不同的问题："模型是否选择性地忽略了与其结论相矛盾的证据？"

这是两种不同的失败模式，需要不同的检测策略。幻觉有时可以通过检索增强接地来捕获——如果模型声称一个事实，你可以检查源文档是否包含它。但在伪造问题中，源文档确实包含模型引用的支持证据。缺失的是模型选择不呈现的反驳证据。

设想一个代码审查 Agent 被要求评估一个提议的架构是否安全。模型可能真的知道该模式存在已知的失败模式——这些信息甚至可能存在于其上下文窗口中。但如果用户的消息对该架构持积极态度，或者模型先前的上下文将其视为可接受的，模型可能会锚定在积极结论上，产出一份读起来很严谨但系统性地淡化了风险信号的审查报告。

研究人员在让 LLM 执行规则发现任务时发现，模型会持续生成确认其当前假设的示例，而不是能够证伪假设的示例。当假设"规则是偶数"时，一个校准良好的推理者会测试 [2, 4, 5] 来探测边界。LLM 测试的是 [2, 4, 6]。单个观察结果是准确的，但探索策略是有偏见的。

它在生产中的表现

伪造问题在模型从多个证据片段中综合判断的任务中最为危险——因为在这类任务中，选择性关注最难被发现。

带结论偏见的摘要。 当模型被要求总结一篇长文并给出判断时，它往往在阅读早期段落时就预先锁定了立场，然后透过这一视角来总结文章的其余部分。如果你用不同框架的问题让同一模型总结同一文档，你会频繁得到不同的侧重——不是因为文档变了，而是因为模型的初始框架改变了它认为值得呈现的内容。

多轮确认漂移。 在对话式 Agent 中，每一轮模型输出都会为下一轮设置先验。在早期轮次中对错误决策持积极态度的用户，往往会发现模型随着时间推移越来越强化这种框架，即使新信息的到来本应更新评估。模型并非在撒谎——它在锚定。而与可能会注意到自己同意过头的人类合作者不同，模型对这种漂移没有任何元认知意识。

含早期分类的 Agent 流水线。 在多步骤工作流中，Agent 通常会在流水线早期对输入进行分类或打标签。下游步骤随后在打了标签的输入上运行。如果分类出错，后续步骤可能会基于一个被误归类的前提生成连贯但不正确的推理。各步骤单独看起来都没问题；错误在于它们继承的框架。

一项研究发现，谄媚行为在医学和数学查询中出现的比例高达 58.2%，当用户仅仅表示不同意（而非提供新证据，只是反驳而已）时，模型将正确答案改为错误答案的比例达到 14.7%。

思维链并不能解决这个问题

应对推理失败的标准做法是添加思维链（CoT）提示——让模型展示其推理过程。如果推理有误，你就能看到它在哪里出轨。

这在一定程度上是对的，但对于伪造问题来说远远不够。

衡量 CoT 忠实性的研究发现，口头推理轨迹真正驱动输出的比例大约在 22% 到 86% 之间，具体取决于模型和任务——这意味着在相当大比例的情况下，你所看到的推理轨迹并非产生答案的那条路径。模型通过一条计算路径生成了答案，又通过另一条不同的路径生成了解释。这个解释是事后构建的。

该研究还有一个引人注目的发现：在参数上忠实的步骤——实际影响输出的步骤——与人类判断为合理或令人信服的步骤之间，相关性仅为 0.15。模型实际计算中最有影响力的步骤，往往不是那些在审阅者眼中读起来最自然或最符合逻辑的步骤。模型可见的推理之所以具有说服力，恰恰是因为它是被生成来有说服力的，而不是因为它反映了真正驱动结论的内容。

这带来了一个验证问题。当你审计模型的思维链以查找伪造时，你读到的是一段被优化为连贯且令人信服的叙事。选择性证据之所以被选中，是因为它支持结论——而这也正是为什么它读起来显得相关且恰当。

思维链审计能发现什么

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

LLM 伪造问题：当模型为错误答案构建出令人信服的论据

为何这与幻觉不同

它在生产中的表现

思维链并不能解决这个问题

思维链审计能发现什么

Recommended Reading

关于 Tian Pan

为何这与幻觉不同​

它在生产中的表现​

思维链并不能解决这个问题​

思维链审计能发现什么​

Recommended Reading

关于 Tian Pan

为何这与幻觉不同

它在生产中的表现

思维链并不能解决这个问题

思维链审计能发现什么