当 AI 听起来正确但事实并非如此：技术与科学领域中的 LLM 虚构现象

2026年5月6日 · 阅读需 10 分钟

Software Engineer

在技术领域，LLM 虚构（confabulation）的阴险之处不在于模型会给出明显的错误答案。而在于它会生成结构优美、语气自信、技术上看似合理的答案，但其中的细微错误只有领域专家才能发现——而且往往是在造成损失之后。

一个 Monte Carlo 物理模拟，它初始化正确，但在每一步都从头重新采样粒子位置，而不是进行增量更新。一个符合命名规范但氧化态错误的化学公式。一份引用了正确标准、参考了正确单位，但载荷系数完全错误的设计规范。每个输出看起来都是正确的。每个听起来都极具权威。但每一个都是错误的，且这些错误只有在有人运行实验、对组件进行压力测试或仔细阅读推导过程时才会浮现。

这就是在技术和科学知识工作中使用 LLM 的核心问题：故障模式的隐蔽程度与其危险程度成正比。

为什么技术领域格外脆弱

一般的虚构——比如 LLM 编造一个历史日期或误引一位 CEO 的话——是令人懊恼但可以纠正的。技术虚构在结构上有所不同，原因有三。

训练数据无法区分共识与边缘观点。 LLM 吸收一篇经过同行评审的 Physical Review Letters 论文和一篇另类物理博客文章的方式在文本模式上是等同的。两者都用自信的文字描述牛顿力学。两者都使用正确的词汇。模型没有信号去权衡孰轻孰重，因此当它生成关于重力加速度的解释时，它提取的是一个同时包含正确和错误描述的分布，且两者同样流畅。

单位和量纲错误会悄无声息地累加。 在散文领域，第三句引入的错误通常是独立的。在技术领域，推导第三步引入的错误会传播到后续的每一个步骤。一个在工程计算早期混淆了牛顿和千克的 LLM，会产生一个结构完整、代数逻辑自洽但物理意义荒谬的推导过程——而且干净的代数逻辑会让结果看起来非常可信。

自信与正确性是脱钩的，而对齐（alignment）让情况变得更糟。 最近的校准（calibration）研究中一个关键且被低估的发现是：RLHF 对齐——旨在使模型变得“有用”且“安全”的偏好训练——实际上损害了校准。预训练的基座模型通常比经过对齐的聊天模型校准得更好。在偏好对齐之后，模型会变得系统性地过度自信。让 Claude 听起来乐于助人的微调过程，正是让它对自己本不该确定的事情表现得言之凿凿的过程。在过度自信代价高昂的技术领域，这是一种直接的结构性风险。

实践中失败的表现形式

基准测试只能说明部分问题。在专家级 STEM 评估中——即那些需要真正的领域知识而非模式补全的测试——前沿 LLM 的表现远低于人类专家。在“人类最后的考试”（Humanity's Last Exam）中，针对 2,500 个涵盖物理、化学、生物和高等数学的专家级问题，目前最好的模型依然无法答对接近一半的问题。在 Google-Proof Question Answering 基准测试中（该测试使用由领域博士编写的、需要真正推理而非检索的问题），前沿模型的得分显著低于人类领域专家 65% 的基准线。

但基准测试低估了问题的严重性，因为它们测量的是孤立问题的平均错误率。真实的技术工作涉及推理链，其中一个错误的步骤就会毁掉下游的一切，而且没有显式的错误消息往往是正确性的虚假信号。

案例研究描绘了更具体的图景。研究天体物理数据分析中 LLM 辅助工作流的论文记录了一种特定的故障模式：智能体系统（agentic systems）在约束不足的任务中生成了物理上不可能的后验分布，没有任何错误或警告，并将输出作为有效结果呈现。系统运行完成了，输出格式正确，但物理学原理是错的。只有检查分布的天体物理学家才会注意到这一点。

在医疗背景下，针对植入错误（错误的实验室数值、不存在的诊断、缺失的关键背景）的临床案例测试研究发现，模型在高达 83% 的时间里会重复或详述这些错误。模型不仅没有发现错误，反而自信地在错误之上构建临床推理。

化学领域的专项研究发现，模型存在持久的基础知识差距，这些差距无法通过重新提示或思维链（chain-of-thought）推导来解决。模型不知道自己不知道什么，也无法区分其化学知识的局限性与其正确吸收的化学知识体系。

“听起来没错”的不对称性

让这一切易于理解但难以解决的原因在于一种根本性的不对称：正是那些让大语言模型（LLM）在技术领域发挥作用的特性——流畅的生成、自信的措辞、正确的领域词汇、对标准符号和结构的熟悉——也正是让它们的错误难以被发现的特性。

一名初级工程师请 LLM 解释负载计算，得到的回应使用了正确的术语，引用了正确的因素，逻辑严密地构建了推导过程，但在第四步中埋藏了一个错误的数字。他们没有理由怀疑这个输出。词汇是正确的，格式是得体的，自信程度也预示着准确性。

对于在非核心专业邻近领域工作的团队来说，这种不对称性最为严重。例如，一个正在构建化学模拟工具的软件团队；一个就其专业领域之外的监管合规问题咨询 LLM 的机械工程师；或者一个利用 LLM 总结其刚进入的子领域文献的研究员。这些恰恰是看起来最有价值、但也蕴含最大风险的使用场景。

减少“自信错误”输出的架构

好消息是，这些失效模式是可以解决的——不是通过提示词工程（prompting）让 LLM 更好地自我校准，而是通过构建接地（grounding）架构来约束模型可以声称的内容。

要求引用的生成。 核心思路是要求任何主张都必须有特定的引用来源支撑，然后通过机械手段验证所引用的来源是否确实支持该主张。这种模式——检索、带有引用约束的生成、验证引用与主张的一致性——并不能消除 LLM 的生成错误，但它消除了很大一部分“自信的胡说八道”，因为模型无法引用那些并未提及它所声称内容的来源。实施这种模式的系统在可验证的虚假主张方面有显著减少。对于内部技术文档，这意味着要求 LLM 指向具体的行号、公式或章节——而不是转述——并自动化检查过程。

步骤级推导验证。 对于数学和物理推导，要求模型展示每一步的过程，从而实现对最终答案无法发现的错误进行验证。关于步骤级验证模型的研究表明，评估中间推理步骤（而非仅仅是输出结果）可以发现那些在结论中看似隐形的错误。在实践中，这意味着构建提示词以产生带编号的推导步骤，并对每一步进行验证（无论是自动还是人工），而不是直接接受结论。

针对重大输出的专家参与（Expert-in-the-loop）关卡。 某些类别的技术输出在投入使用前，必须由人类领域专家进行审查。架构层面的问题不在于是否引入人类，而在于将关卡设置在哪里。一个有用的启发式方法是：根据主张类型而非输出长度来设置关卡。博士研究员对三句化学解释的审查，与对十页工程规范的审查具有同等的重要性，如果两者都提出了将驱动实际决策的具体定量主张。

基于权威来源的检索。 从广泛文档库中检索的标准 RAG 虽然提供了一定的基础，但并未解决“同行评审”与“边缘观点”的区别问题。专门索引同行评审文献、官方标准机构或特定领域权威数据库的技术型 RAG 实现，会产生不同的校准特性。检索语料库变成了区分共识与边缘观点的鉴别器，而模型本身缺乏这种能力。将稠密检索（dense retrieval）与按出版商或权威类型进行的来源过滤相结合，比增加未分类语料库的检索数量更有效。

语义熵路由。 通过语义熵检测幻觉的研究提供了一个实用的操作信号：当模型对某个主张不确定时，针对同一查询生成多个输出会导致输出之间出现高度分歧。“自信且错误”的输出往往表现出反常的低熵（模型自信地多次生成相同的错误答案），而不确定的输出——即模型真正不确定的时候——则表现出高分歧。测量多次生成的分歧程度，并在使用前将高熵输出路由至专家评审，可以捕捉到很大一部分原本会悄然漏掉的不确定输出。

这对工程团队意味着什么

实际的影响并不是说 LLM 不能用于技术工作。它们可以，而且在正确使用时能产生真正的价值。其含义是，安全架构与能力水平同样重要。

做对这一点的团队将 LLM 输出层视为“生成器”而非“神谕”，并在验证层投入同等的精力。他们为哪些输出类型需要引用验证、步骤级检查或领域专家评审建立明确的策略。他们不依赖于让模型检查自己的工作——由生成输出的同一个模型进行自我评估会表现出类似的失效模式。

做错这一点的团队遵循着一种可预测的模式：他们在错误风险低且显而易见的任务类别上建立信任，然后将这种信任延伸到错误风险高且隐蔽的任务上。模型的自信程度并不能帮助区分这些情况；它在两种情况下的表现是一样的。区别在于后果，这意味着团队需要进行风险分类，而不是将其交给模型表面的确定性。

核心纪律是将领域专业知识视为架构中不可或缺的组成部分，而不是一个需要被消除的成本。LLM 放大专家产出的成果，但它们目前还无法取代专家验证的内容。在物理、化学和工程领域，这种区别正是“有用工具”与“负债”之间的分水岭。

技术领域正是 LLM 生成的“听起来没错”特性与正确性偏离最严重的地方。构建能够考虑到这一点的系统——从结构上，而不只是通过提示词——是区分“善用 AI 的团队”与“最终被 AI 坑害的团队”的工程任务。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

当 AI 听起来正确但事实并非如此：技术与科学领域中的 LLM 虚构现象

为什么技术领域格外脆弱

实践中失败的表现形式

“听起来没错”的不对称性

减少“自信错误”输出的架构

这对工程团队意味着什么

Recommended Reading

关于 Tian Pan

为什么技术领域格外脆弱​

实践中失败的表现形式​

“听起来没错”的不对称性​

减少“自信错误”输出的架构​

这对工程团队意味着什么​

Recommended Reading

关于 Tian Pan

为什么技术领域格外脆弱

实践中失败的表现形式

“听起来没错”的不对称性

减少“自信错误”输出的架构

这对工程团队意味着什么