9 篇博文含有标签「hallucination」

当 AI 听起来正确但事实并非如此：技术与科学领域中的 LLM 虚构现象

2026年5月6日 · 阅读需 10 分钟

Software Engineer

在技术领域，LLM 虚构（confabulation）的阴险之处不在于模型会给出明显的错误答案。而在于它会生成结构优美、语气自信、技术上看似合理的答案，但其中的细微错误只有领域专家才能发现——而且往往是在造成损失之后。

一个 Monte Carlo 物理模拟，它初始化正确，但在每一步都从头重新采样粒子位置，而不是进行增量更新。一个符合命名规范但氧化态错误的化学公式。一份引用了正确标准、参考了正确单位，但载荷系数完全错误的设计规范。每个输出看起来都是正确的。每个听起来都极具权威。但每一个都是错误的，且这些错误只有在有人运行实验、对组件进行压力测试或仔细阅读推导过程时才会浮现。

复合幻觉问题：多阶段 AI 流水线如何放大错误

2026年5月5日 · 阅读需 12 分钟

Tian Pan

Software Engineer

大多数关于幻觉的研究都集中在单次模型调用的输出上。这种框架忽略了一个更可怕的问题：在四阶段的工作流（pipeline）中，如果每个阶段都无条件地信任前一个阶段的输出，会发生什么。第一阶段中一个虚构的事实不仅会持续存在，还会成为后续每一次推理的承重前提。到第四阶段，工作流会给出一个自信且逻辑自洽的答案，但结果却是完全错误的。

这不是一个可以通过更强大的模型来解决的能力问题。这是一个系统架构问题，需要从系统层面进行修复。

乐于助人但却出错：生产环境 AI Agent 中的操作性幻觉问题

2026年5月5日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的 AI agent 刚刚完成了一项复杂的数据库迁移任务。它调用了正确的工具，使用了恰当的术语，引用了正确的库，并返回了看起来完全合理的输出。然后你的 DBA 在一个拥有 5000 万行的生产表上运行它 —— 结果备份标志（backup flag）写错了。这个标志存在于相邻的库版本中，语法上是有效的，但它在静默状态下没有执行备份步骤。

这个 agent 并不是在胡言乱语。它表现得自信、流畅且方向正确。但在操作上，它错得正是会导致数据丢失的那种方式。

这是该领域投入不足的一种幻觉类别，也是你的评估（evals）几乎肯定无法捕捉到的那种。

自信的幻觉制造者：生产级 LLM 知识边界信号的运行时模式

2026年5月4日 · 阅读需 12 分钟

Tian Pan

Software Engineer

GPT-4 在用自身置信度评分区分正确答案与错误答案时，AUROC 仅约为 62%——这几乎与随机猜测（50%）相差无几。无论正确与否，模型的表达都同样自信流畅。如果你构建的生产系统默认高置信度响应是可靠的，那你实际上在依赖一个近乎随机的信号。

这就是知识边界信号问题，它处于绝大多数真实 LLM 质量故障的核心。模型不知道自己不知道什么——更准确地说，它内部其实知道，却无法可靠地表达出来。工程挑战不在于让模型拒绝得更多，而在于设计能将不确定性转化为可操作信号的系统，同时又不让产品体验显得残缺。

知识截止期是 UX 界面，而非脚注

2026年4月27日 · 阅读需 14 分钟

Tian Pan

Software Engineer

模型有知识截止日期。用户不知道它是什么。产品在几乎所有情况下都不会告诉用户。当用户问了一个正确答案在三个月前已经改变的问题时，助手会给出一个言之凿凿的错误答案——这并非因为模型失效了，而是因为产品从未提供一种方式来标记这种信息鸿沟。你与用户之间的信任契约是隐性的、不对称的，并且每当世界发生变化而你的 UX 假装没有变化时，这种契约就会被悄然打破。

主流模式是将截止日期视为一个注脚：一段埋藏在帮助中心里的披露文本、一个无人阅读的 /about 页面，或者在第一周就被关闭的一次性工具提示。这种定位是一个 bug。知识截止日期不像“上下文长度”那样是模型的一个属性。它是一个 UX 界面——经过工程化、设计和演进——将其视为次要因素，会导致交付的产品在用户无法审计的语调下，围绕自身的无知进行编造。

拒绝训练差距：为什么你的模型对错误的问题说“不”

2026年4月23日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一个用户询问你的助手，“我该如何杀死一个挂起的 Python 进程？”结果收到了一个关于暴力的礼貌拒绝。另一个用户问，“谁获得了 2003 年诺贝尔物理学奖？”结果得到了一个自信编造的名字。这两个回答都来自同一个模型，都通过了你的安全审核，并且到周一都会出现在你的支持收件箱里。令人沮丧的是，这并不是两个独立的故障，也不是两个独立的修复方案。它们是同一个失败：你的模型被训练成识别拒绝模板，而不是识别它实际上不应该回答的内容。

整个行业花了三年时间让模型拒绝违反政策的请求。但几乎没有花时间教它们拒绝那些无法可靠回答的问题。结果是拒绝能力的方向出现了偏差：在表面模式（如 “kill”、“exploit”、“bypass”）上得到了大量强化，但在认知状态（如 “我不知道那是谁”）上几乎没有训练。当你只优化一个方向时，你得到的模型会对错误的问题说“不”，同时对错误的问题说“是”，而且通常发生在同一次对话中。

跨语言幻觉：为什么你的大模型在它不擅长的语言中更容易撒谎

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的模型在评测集上得分92%，但说法语的用户却不断抱怨它在胡说八道。这两件事可以同时为真——而它们之间的差距，是多语言AI系统在构建和评测方式上的结构性问题。

LLM在非英语语言中的幻觉率比英语高出15–35%。在斯瓦希里语或约鲁巴语等低资源语言中，针对同样的事实类问题，性能差距可扩大至38个百分点。然而，大多数团队在推出多语言AI功能时，只使用英语评测套件，汇报掩盖问题的聚合基准分数，直到巴黎或孟买的用户开始提交工单才发现问题。

跨语言幻觉问题本质上不是模型质量问题，而是一种测量与架构失误——团队将多语言AI视为"英语AI加上翻译模块"而一再延续这一失误。

公开幻觉应对指南：当你的 AI 在公众场合说出蠢话时该怎么办

2026年4月16日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你会通过一张截图发现它。

客户会把它发出来，记者会引用它，或者团队里的某个人会在晚上 11 点在 Slack 上给你发个链接。你的 AI 系统言之凿凿地给出了错误的答案 —— 错到滑稽，或者错到可能伤及他人 —— 而且现在已经公开了。

大多数工程团队花费数月时间强化他们的 AI 流水线以防这一时刻的到来，却发现他们从未计划过一旦这一时刻到来该怎么办。他们知道如何迭代评估（evals）和调整提示词（prompts）。他们不知道该由谁来发布回复推文，该回复应该说些什么，或者如何区分是一次性的倒霉样本，还是已经在生产环境中运行了数周的潜在故障模式。

这就是针对那一刻的应对指南。

检索空洞问题：为什么你的 RAG 拒绝说“我不知道”

2026年4月16日 · 阅读需 12 分钟

Tian Pan

Software Engineer

向生产环境中的 RAG 系统提一个你的语料库无法回答的问题，看看会发生什么。它很少会说“我没有那方面的信息”。相反，它会检索出五个排名最高的片段——由于没有更好的匹配项，这五个片段其实是五个最不糟糕的无关内容——然后将它们交给模型，并配上类似“请使用以下上下文回答用户的问题”的提示词。模型在被训练为要乐于助人的同时，手中握着与主题有几分相似的文本，于是产生了一个自信的回答。这个答案的错误在架构上是不可见的：检索成功了，生成也成功了，每个片段都在检索到的文档中有据可查，但用户却被误导了。

这就是检索空洞问题。它不是任何单一层级的 bug。它是一个流水线的涌现行为，该流水线将 “top-k” 视为一种契约，却从不询问 top-k 的质量如何。ICLR 2025 上发表的一项关于“充分上下文”（sufficient context）的研究量化了这一影响：当 Gemma 获得充分的上下文时，其在事实性问答上的幻觉率约为 10%。当它收到的上下文不足时——即检索到的文档实际上并不包含答案——该比率会飙升至 66%。向描述不足的查询中添加检索到的文档会让模型错得更自信，而不是更少。

关于 Tian Pan