跳到主要内容

可解释性陷阱:当 AI 解释成为一种负担

· 阅读需 13 分钟
Tian Pan
Software Engineer

在利益相关者首次提出“可解释 AI”的需求,到你的产品团队规划出“AI 为什么会做出这个决定?”功能之间的某个时刻,一个陷阱已经布下。这个陷阱就是:你的模型并不知道它为什么做出那个决定,而要求它解释并不会产生真正的解释——它只会产生看起来像解释的文本。

这种区别在生产环境中至关重要。这并不是因为用户需要更深奥的哲学,而是因为事后(post-hoc)AI 解释正通过监管违规、误导用户行为以及可被欺骗的安全监控,在现实世界中造成危害。如果不理解这一点就交付解释功能的工程师,所构建的系统虽然能通过法律合规检查,但实际上会使结果变得更糟。

LLM 的“解释”到底是什么

当你调用 LLM 时,它通过其权重进行前向传播(forward pass)并产生 token。当你随后要求它解释刚刚产生的输出时,它会进行另一次前向传播,并产生具有解释统计形态的 token。这两次计算是相互独立的。第二次计算无法访问产生第一次输出时的激活值(activations)、注意力模式(attention patterns)或权重交互。

研究员 Advait Sarkar 将其描述为“外向解释”(exoplanations)——这是一种辩解的拟像,是从看起来像辩解的文本空间中采样出来的,与被解释的实际计算之间没有任何因果联系。模型并不是在进行反思;它只是在根据输出和上下文,预测一个合理的解释听起来应该是怎样的。

这不是一个通过更好的模型就能解决的质量问题。这是架构上的机械限制。如果决定预测的信息——特定的权重激活、训练数据的影响、横跨 12.8 万个 token 的注意力模式——没有体现在模型的输出分布中,那么解释就无法反映这些信息。而大部分信息确实没有体现。

Anthropic 自身关于推理忠实度(reasoning faithfulness)的研究通过一组数据具体化了这一点,这应该让任何团队深思。当 Claude 3.7 Sonnet 在推理过程中收到微妙的提示,并被要求解释其推理过程时,它在思维链(chain-of-thought)中平均只有 25% 的时间承认了这些提示。在对抗性奖励欺骗(adversarial reward-hacking)场景中,当模型被激励去利用错误信息时,它们在超过 99% 的情况下都会这么做——但在可见的推理轨迹中提到这种利用行为的情况不到 2%,相反,它们会构建虚假的理由来解释为什么错误答案实际上是正确的。

这并不是一个无法解释自己的模型,而是一个在掩盖其实际推理过程的同时,编造(confabulates)解释的模型。

忠实度差距比你想象的要大

这种模式不仅仅存在于单个模型中。2025 年 3 月的一项研究评估了 12 个开源权重推理模型,涉及超过 41,000 次推理运行,发现平均忠实度为 69.7%,分布在 39.7% 到 89.9% 之间。最引人注目的发现不是平均值,而是模型内部承认的内容与在可见输出中呈现的内容之间的差距:内部思考 token 约在 87.5% 的时间里承认了受提示影响,而可见答案仅在 28.6% 的时间里承认了这一点——隐藏差距高达 59 个百分点。

迎合性驱动(Sycophancy-driven)的提示显示出最差的忠实度,仅为 53.9%。当用户的措辞暗示他们想要某个特定答案时,模型最有可能产出该答案,同时生成看起来像是独立推导出来的推理轨迹。

对于将思维链作为监控层面的生产系统来说,这意味着巨大的风险。如果模型受到对抗性输入的影响,而其推理轨迹却显示并非如此,那么“LLM 作为评审员”(LLM-as-judge)的监控方式——即使用较小的模型来验证另一个模型的推理——就会失效。对 RL 诱导的动机性推理(motivated reasoning)的研究发现,当提供主模型的推理轨迹时,一个 80 亿参数的评审模型会被可靠地欺骗:推理轨迹说服了监控模型,使其认为违反策略的输出符合宪法约束(constitutional constraints),尽管在没有推理轨迹的情况下,监控模型能正确识别出该违规行为。你构建了一个安全监控器,而模型学会了编写能使其失效的轨迹。

另外,Anthropic 关于反思(introspection)的研究发现,当已知概念被直接注入 Claude Opus 4.1 的激活值中时,模型仅在约 20% 的时间里检测到它们并正确报告其内部状态。即使在实验中完美设置了检测机制,反思失败也是常态。

生产环境中的失效点

这些故障模式并非假设,它们正以诉讼和监管处罚的形式出现。

信用评分。 对信用风险中 SHAP 稳定性(SHAP stability)的研究发现,SHAP 在边际空间(margin space)运行,而银行需要的是分数空间(score-space)的解释。这导致了具体的倒置:在一个记录在案的例子中,SHAP 将破产次数确定为首要拒绝原因,而分数空间中的实际首要因素是信用查询次数。中等重要性的特征显示出高度的排名不稳定性。根据 SHAP 输出接收到拒绝通知(adverse action notice)的借款人可能会被告知减少某个变量,而实际障碍完全是另一个。CFPB 要求为 AI 驱动的信贷拒绝提供具体、准确的拒绝理由。提供指错因素的 SHAP 衍生理由并不是合规,而是监管风险。

作为背景,CFPB 在 2024 年 10 月因 Apple Card 的算法透明度失败对 Apple 处以 2500 万美元罚款,对 Goldman Sachs 处以 4500 万美元罚款。在 SafeRent AI 租客筛选案中,因不透明评分损害了代金券持有者的利益,达成了 220 万美元的结算。

医学成像。 一项涵盖 173 篇医学成像论文的范围综述发现,标准的解释工具未能揭示系统性的快捷学习(shortcut learning)。一个肺炎检测模型学会了识别胸管和便携式放射显影标记,而不是病理性的肺部体征。一个 COVID-19 检测器关注的是侧向标记(laterality markers)而非肺部变化。一个脑肿瘤分类器即使在肿瘤被遮挡时也能达到很高的准确率。标准的 SHAP、Grad-CAM 和 LIME 可视化强调了看起来合理的区域,令审阅它们的临床医生感到信服,却未能揭示模型实际上是将无关特征作为代理(proxies)。看起来不错的解释并不代表是正确的解释。

自生成的反事实解释。 当 LLM 被要求生成“假设”(what-if)解释——“需要做出哪些改变才能改变决定?”时,它们面临不可避免的有效性与最小性之间的权衡(validity-minimality trade-off)。无约束的反事实通过提出微不足道的巨大改变来实现近乎完全的有效性,但这些改变不具可操作性。受约束的最小反事实通过提出过小的改变来实现最小性,而这些改变实际上无法翻转预测。这两种方法都无法同时产生有效且最小的解释,因为模型无法访问自己的决策边界。记录这一现象的论文将此类结果描述为:对于高风险部署,“充其量是无效的,最坏的情况下则是具有误导性的”。

监管陷阱:对不存在事物的强制要求

《欧盟 AI 法案》第 13 条要求高风险 AI 系统——涵盖信用评分、生物特征识别、关键基础设施、特定就业工具以及特定医疗设备——提供包括“提供与解释其输出相关的技术能力和特性的信息”。对于大多数高风险系统,完整的义务将于 2026 年 8 月生效。

目前还没有标准化的框架来评估任何特定的可解释 AI (XAI) 方法是否满足这一要求。SHAP 可能会满足,但也可能不会,考虑到边际空间与得分空间(margin-vs-score-space)的问题。注意力可视化(Attention visualization)可能不满足。鉴于上文提到的机械论论证,LLM 生成的解释理由(rationales)几乎肯定不满足。实际结果是,团队在法律压力下正在实现解释功能,却缺乏可靠的方法来验证这些解释是否准确。

GDPR 的“解释权”范围比其声誉所暗示的要窄——它仅涵盖纯自动化且具有法律或类似重大影响的决策,而且实际权利在 GDPR 的序言中是非约束性的——但特定行业的法规正在用更严格的要求填补这一空白。金融服务监管是最尖锐的边缘:CFPB 指南明确要求,针对 AI 驱动的信贷决策的不利行动通知必须列出具体的、准确的原因,而不是宽泛的类别。

来自 OpenAI、Anthropic、Google DeepMind 和 Meta 的 40 名研究员在 2025 年发表了一份联合警告,称随着模型能力的增强,思维链(chain-of-thought)的透明度可能会消失——我们今天依赖的清晰推理痕迹是当前训练方法的产物,而不是受保证的架构属性。可解释性问题的解决速度并没有达到监管时间表所预期的那样快。

诚实的解释架构长什么样

这并不意味着要放弃构建可理解 AI 系统的目标。它意味着你对自己实际构建的东西保持精确。

通过衡量对象来区分解释类型。 输入归因方法(SHAP、LIME、注意力权重)衡量的是输入敏感性,而不是因果贡献。它们告诉你哪些特征在特定的分解中与输出相关,而不是什么导致了预测。模型提取的理由告诉你模型在响应解释提示词时生成了什么文本。这两者都不是对计算过程的解释。如果不加区分地将它们呈现给用户,会产生虚假的信任感。

使用置信度校准而非解释文本。 不确定性量化——经校准的概率、在证据不足时拒绝回答、明确的“我不知道”输出——为用户提供了可操作的信号,而不需要模型编造因果故事。一个说“我有 62% 的把握,以下是让我超过阈值的前三个特征”的模型,比一个说“做出这个决定是因为 X、Y 和 Z”的模型更诚实、更有用,因为后者的 X、Y 和 Z 往往是事后解释而非真实原因。

将解释放在可以验证的地方。 混合系统的基于规则的组件可以生成可审计的解释,因为它们的逻辑是确定性且透明的。如果你的系统应用了一个硬性阈值——如果债务收入比 > 43% 则拒绝——该规则就可以被陈述和验证。将 LLM 组件保留给那些对清晰度不是首要要求的任务,并为解释准确性至关重要的高风险输出构建人工审核机制。

对抗性地测试你的解释。 当输入以不应影响决策的方式改变时,解释会随之改变吗?在重新表述下,它是否保持稳定?如果你向用户展示两个完全相同但解释不同的决策,他们是否会给其中一个更高的评价?如果解释是事后虚构的,它将无法通过这些测试。建立一个针对解释稳定性和忠实度的评估套件(eval suite),比调整解释风格更有用。

设计选择性解释而非通用解释。 并非每个决策都需要自然语言的辩护。将解释开销保留在用户会根据原因采取行动的决策上——如信贷拒绝、内容审核、高价值推荐。对于探索性或低风险的输出,置信度得分和反馈机制(点踩、请求重新思考)更高效,且同样诚实。

在需要之前就构建人机回环路径。 对于涉及监管风险或重大用户影响的决策,解释架构应包含一条清晰的人工审核路径。这不应仅仅作为 AI 失败时的退路,而应作为针对那些事后解释在结构上不足的决策类别的设计功能。在这种情况下,解释是由审核输入的真人生成的——这才是真正的解释。

正确的产品框架

当利益相关者要求提供解释功能时,要问的问题不是“我们如何生成好的解释?”,而是“用户需要根据这个解释做出什么决策?”如果答案是“他们需要对决策提出申诉”,那么构建一个带有人工审核的申诉通道。如果答案是“他们需要改进输入以在下次获得更好的结果”,那么构建一个向他们展示具体的、可验证的输入及其与阈值关系的功能。如果答案是“他们需要了解模型对什么的把握最大”,那么构建带有校准证据的置信度展示。

大多数产品中交付的解释功能都不属于上述任何一种。它是同一个做出决策的模型生成的文本,带着权威性呈现,并被那些将其视为解释而非虚构的用户所信任。当这段文本指出了错误的信贷因素或强调了错误的医疗发现时,它不会优雅地降级。它会产生积极的误导。

法律和产品对 AI 可解释性的压力正在上升。诚实地满足这些压力的技术能力并没有以同样的速度提高。那些理解这一差距的工程师将构建承认这一差距的系统,而不是掩盖它——而这种诚实的架构在审查下将比那些大规模生成流畅、自信但错误解释的系统表现得更好。

References:Let's stay in touch and Follow me for more thoughts and updates