跳到主要内容

当 AI 听起来正确但事实并非如此:技术与科学领域中的 LLM 虚构现象

· 阅读需 10 分钟
Tian Pan
Software Engineer

在技术领域,LLM 虚构(confabulation)的阴险之处不在于模型会给出明显的错误答案。而在于它会生成结构优美、语气自信、技术上看似合理的答案,但其中的细微错误只有领域专家才能发现——而且往往是在造成损失之后。

一个 Monte Carlo 物理模拟,它初始化正确,但在每一步都从头重新采样粒子位置,而不是进行增量更新。一个符合命名规范但氧化态错误的化学公式。一份引用了正确标准、参考了正确单位,但载荷系数完全错误的设计规范。每个输出看起来都是正确的。每个听起来都极具权威。但每一个都是错误的,且这些错误只有在有人运行实验、对组件进行压力测试或仔细阅读推导过程时才会浮现。

这就是在技术和科学知识工作中使用 LLM 的核心问题:故障模式的隐蔽程度与其危险程度成正比。

为什么技术领域格外脆弱

一般的虚构——比如 LLM 编造一个历史日期或误引一位 CEO 的话——是令人懊恼但可以纠正的。技术虚构在结构上有所不同,原因有三。

训练数据无法区分共识与边缘观点。 LLM 吸收一篇经过同行评审的 Physical Review Letters 论文和一篇另类物理博客文章的方式在文本模式上是等同的。两者都用自信的文字描述牛顿力学。两者都使用正确的词汇。模型没有信号去权衡孰轻孰重,因此当它生成关于重力加速度的解释时,它提取的是一个同时包含正确和错误描述的分布,且两者同样流畅。

单位和量纲错误会悄无声息地累加。 在散文领域,第三句引入的错误通常是独立的。在技术领域,推导第三步引入的错误会传播到后续的每一个步骤。一个在工程计算早期混淆了牛顿和千克的 LLM,会产生一个结构完整、代数逻辑自洽但物理意义荒谬的推导过程——而且干净的代数逻辑会让结果看起来非常可信。

自信与正确性是脱钩的,而对齐(alignment)让情况变得更糟。 最近的校准(calibration)研究中一个关键且被低估的发现是:RLHF 对齐——旨在使模型变得“有用”且“安全”的偏好训练——实际上损害了校准。预训练的基座模型通常比经过对齐的聊天模型校准得更好。在偏好对齐之后,模型会变得系统性地过度自信。让 Claude 听起来乐于助人的微调过程,正是让它对自己本不该确定的事情表现得言之凿凿的过程。在过度自信代价高昂的技术领域,这是一种直接的结构性风险。

实践中失败的表现形式

基准测试只能说明部分问题。在专家级 STEM 评估中——即那些需要真正的领域知识而非模式补全的测试——前沿 LLM 的表现远低于人类专家。在“人类最后的考试”(Humanity's Last Exam)中,针对 2,500 个涵盖物理、化学、生物和高等数学的专家级问题,目前最好的模型依然无法答对接近一半的问题。在 Google-Proof Question Answering 基准测试中(该测试使用由领域博士编写的、需要真正推理而非检索的问题),前沿模型的得分显著低于人类领域专家 65% 的基准线。

但基准测试低估了问题的严重性,因为它们测量的是孤立问题的平均错误率。真实的技术工作涉及推理链,其中一个错误的步骤就会毁掉下游的一切,而且没有显式的错误消息往往是正确性的虚假信号。

案例研究描绘了更具体的图景。研究天体物理数据分析中 LLM 辅助工作流的论文记录了一种特定的故障模式:智能体系统(agentic systems)在约束不足的任务中生成了物理上不可能的后验分布,没有任何错误或警告,并将输出作为有效结果呈现。系统运行完成了,输出格式正确,但物理学原理是错的。只有检查分布的天体物理学家才会注意到这一点。

在医疗背景下,针对植入错误(错误的实验室数值、不存在的诊断、缺失的关键背景)的临床案例测试研究发现,模型在高达 83% 的时间里会重复或详述这些错误。模型不仅没有发现错误,反而自信地在错误之上构建临床推理。

化学领域的专项研究发现,模型存在持久的基础知识差距,这些差距无法通过重新提示或思维链(chain-of-thought)推导来解决。模型不知道自己不知道什么,也无法区分其化学知识的局限性与其正确吸收的化学知识体系。

“听起来没错”的不对称性

让这一切易于理解但难以解决的原因在于一种根本性的不对称:正是那些让大语言模型(LLM)在技术领域发挥作用的特性——流畅的生成、自信的措辞、正确的领域词汇、对标准符号和结构的熟悉——也正是让它们的错误难以被发现的特性。

一名初级工程师请 LLM 解释负载计算,得到的回应使用了正确的术语,引用了正确的因素,逻辑严密地构建了推导过程,但在第四步中埋藏了一个错误的数字。他们没有理由怀疑这个输出。词汇是正确的,格式是得体的,自信程度也预示着准确性。

对于在非核心专业邻近领域工作的团队来说,这种不对称性最为严重。例如,一个正在构建化学模拟工具的软件团队;一个就其专业领域之外的监管合规问题咨询 LLM 的机械工程师;或者一个利用 LLM 总结其刚进入的子领域文献的研究员。这些恰恰是看起来最有价值、但也蕴含最大风险的使用场景。

减少“自信错误”输出的架构

好消息是,这些失效模式是可以解决的——不是通过提示词工程(prompting)让 LLM 更好地自我校准,而是通过构建接地(grounding)架构来约束模型可以声称的内容。

要求引用的生成。 核心思路是要求任何主张都必须有特定的引用来源支撑,然后通过机械手段验证所引用的来源是否确实支持该主张。这种模式——检索、带有引用约束的生成、验证引用与主张的一致性——并不能消除 LLM 的生成错误,但它消除了很大一部分“自信的胡说八道”,因为模型无法引用那些并未提及它所声称内容的来源。实施这种模式的系统在可验证的虚假主张方面有显著减少。对于内部技术文档,这意味着要求 LLM 指向具体的行号、公式或章节——而不是转述——并自动化检查过程。

步骤级推导验证。 对于数学和物理推导,要求模型展示每一步的过程,从而实现对最终答案无法发现的错误进行验证。关于步骤级验证模型的研究表明,评估中间推理步骤(而非仅仅是输出结果)可以发现那些在结论中看似隐形的错误。在实践中,这意味着构建提示词以产生带编号的推导步骤,并对每一步进行验证(无论是自动还是人工),而不是直接接受结论。

针对重大输出的专家参与(Expert-in-the-loop)关卡。 某些类别的技术输出在投入使用前,必须由人类领域专家进行审查。架构层面的问题不在于是否引入人类,而在于将关卡设置在哪里。一个有用的启发式方法是:根据主张类型而非输出长度来设置关卡。博士研究员对三句化学解释的审查,与对十页工程规范的审查具有同等的重要性,如果两者都提出了将驱动实际决策的具体定量主张。

基于权威来源的检索。 从广泛文档库中检索的标准 RAG 虽然提供了一定的基础,但并未解决“同行评审”与“边缘观点”的区别问题。专门索引同行评审文献、官方标准机构或特定领域权威数据库的技术型 RAG 实现,会产生不同的校准特性。检索语料库变成了区分共识与边缘观点的鉴别器,而模型本身缺乏这种能力。将稠密检索(dense retrieval)与按出版商或权威类型进行的来源过滤相结合,比增加未分类语料库的检索数量更有效。

语义熵路由。 通过语义熵检测幻觉的研究提供了一个实用的操作信号:当模型对某个主张不确定时,针对同一查询生成多个输出会导致输出之间出现高度分歧。“自信且错误”的输出往往表现出反常的低熵(模型自信地多次生成相同的错误答案),而不确定的输出——即模型真正不确定的时候——则表现出高分歧。测量多次生成的分歧程度,并在使用前将高熵输出路由至专家评审,可以捕捉到很大一部分原本会悄然漏掉的不确定输出。

这对工程团队意味着什么

实际的影响并不是说 LLM 不能用于技术工作。它们可以,而且在正确使用时能产生真正的价值。其含义是,安全架构与能力水平同样重要。

做对这一点的团队将 LLM 输出层视为“生成器”而非“神谕”,并在验证层投入同等的精力。他们为哪些输出类型需要引用验证、步骤级检查或领域专家评审建立明确的策略。他们不依赖于让模型检查自己的工作——由生成输出的同一个模型进行自我评估会表现出类似的失效模式。

做错这一点的团队遵循着一种可预测的模式:他们在错误风险低且显而易见的任务类别上建立信任,然后将这种信任延伸到错误风险高且隐蔽的任务上。模型的自信程度并不能帮助区分这些情况;它在两种情况下的表现是一样的。区别在于后果,这意味着团队需要进行风险分类,而不是将其交给模型表面的确定性。

核心纪律是将领域专业知识视为架构中不可或缺的组成部分,而不是一个需要被消除的成本。LLM 放大专家产出的成果,但它们目前还无法取代专家验证的内容。在物理、化学和工程领域,这种区别正是“有用工具”与“负债”之间的分水岭。

技术领域正是 LLM 生成的“听起来没错”特性与正确性偏离最严重的地方。构建能够考虑到这一点的系统——从结构上,而不只是通过提示词——是区分“善用 AI 的团队”与“最终被 AI 坑害的团队”的工程任务。

References:Let's stay in touch and Follow me for more thoughts and updates