信任校准曲线：用户如何学习（误）信任 AI

2026年4月12日 · 阅读需 11 分钟

Software Engineer

大多数 AI 产品都以同样的方式走向终结。演示（Demo）很成功。测试用户赞不绝口。你发布了产品。然后，在大约三个月后，会话时长（session length）下降，功能闲置，你最活跃的早期用户开始绕过 AI，直接使用底层工具。

这不是模型质量问题，而是信任校准（trust calibration）问题。

“过度信任 → 失败 → 过度修正”的生命周期是 AI 产品采用率最可靠的杀手，而且如果你理解发生了什么，这几乎是完全可以预防的。研究已经很明确，失败模式是可预测的，设计模式也已经存在。大多数团队在看到留存曲线并想弄清楚出了什么问题之前，都会忽视这一切。

无人提及的三阶段生命周期

对 AI 系统的信任遵循一个可预测的轨迹，这在数十年前的人因研究（human factors research）中已有记录，并在现代产品数据中反复得到证实。

阶段 1：初始的过度信任（算法赞赏）

新用户对 AI 的信任建立速度比对人更快，而在出现错误后撤回信任的速度也更快。这种不对称性——对未测试系统的“算法赞赏”（algorithm appreciation），以及在看到失败后的“算法厌恶”（algorithm aversion）——在行为研究中已得到充分证实。用户将 AI 的自信解读为胜任能力。界面显示“我有 94% 的信心”，用户在没有任何基准来衡量 94% 在实践中意味着什么的情况下，就校准了他们对该数字的依赖。

自动化偏见（Automation bias）加剧了这一点。对临床决策支持系统的研究表明，在 AI 辅助的情况下，遵循错误的 AI 建议的比例比对照组高出 26%。放射科医生会撤回正确的诊断，以匹配错误的 AI 建议。开发者在没有审查的情况下接受存在安全漏洞的代码建议。第一阶段不仅仅是被动信任，而是主动的轻信。

阶段 2：刺耳的失败

在某个时刻， AI 会出现明显的、产生后果的错误。不是那种用户察觉不到的微妙错误。而是在重要的语境中，明显、露骨且令人尴尬的错误。

研究表明，单次高显著性错误（high-salience error）是信任崩溃最强有力的预测因子——其影响程度超过了所有其他测量变量，包括系统的实际准确率记录。失败不一定要频繁发生，但必须是出人意料的。用户不会追踪基础概率（base rates）；他们追踪的是显著性。一次令人难忘的失败比一百次默默正确的建议更有分量。

这就是核心的不对称性：信任通过反复成功的交互缓慢建立，但通过单次突出的失败迅速瓦解。你得到的不是成比例的信任减少，而是不成比例的崩溃。

阶段 3：过度修正到信任不足

在刺耳的失败之后，用户不会重新校准到适当的怀疑。他们会过度修正。即使在模型表现良好的任务上，他们也会开始忽略 AI 的输出。他们在所有地方都增加验证步骤，甚至是针对低风险的建议。他们会根据几周前的一次事件告诉同事“它不可靠”。有些人甚至完全停止使用该功能。

这种模式——算法赞赏后的算法厌恶——正是 74% 的公司报告尽管投入巨大仍难以实现和扩大 AI 价值的原因，也是为什么只有 6% 的组织在核心业务流程中完全信任 AI 智能体（AI agents）。产品奏效了，但信任循环没有。

为什么你对“信任”的心智模型是错误的

大多数工程师将用户信任视为一个单一的刻度盘：用户要么信任 AI，要么不信任，并根据准确率来更新这个刻度盘。这在三个重要方面是错误的。

信任是特定领域的，而非全局的。 被 AI 代码建议“坑”过的用户，并不会一律不信任同一工具的代码解释或文档。但大多数 AI 产品不会在领域粒度上跟踪信任。他们衡量总体使用情况，从而错失了信任在某些子空间正常而在其他子空间崩溃的信号。

用户不追踪基础概率。 用户依赖的正确模型应该是：“我按照在这个领域估算的准确率比例来遵循 AI 建议。”而实际的模型是：“我会一直遵循 AI 建议，直到出了问题，然后我就不听了。”用户运行的不是贝叶斯更新（Bayesian updates），而是启发式模式匹配（heuristic pattern matching），而且这些模式深受近因效应和显著性的影响。

自动化懈怠（Automation complacency）削弱了人类的独立能力。 这是一种潜伏的失败模式，不会出现在任何短期指标中。在代码、写作或分析中严重依赖 AI 建议的用户，会逐渐失去在这些领域的独立判断力。GitClear 对 1.53 亿行 AI 辅助代码的数据分析发现，与人类编写的代码相比，其代码变动率（churn rates）高出 41%——这是一个信号，表明开发者正在接受他们无法独立评估的建议。当 AI 出错时，他们抓不住。当 AI 不可用时，他们的能力就下降了。你创造了依赖，却没有创造可靠性。

“校准信任”（Calibrated Trust）的真实含义

在可靠性工程中，当一个概率模型的陈述置信度与其真实准确性相符时，它就是“经过校准的”：当它说 70% 时，它在 70% 的情况下是正确的。可靠性曲线会紧贴对角线。一个校准良好的模型即使在不确定时也是可用的，因为不确定性信号是诚实的。

同样的概念也适用于用户。当用户对 AI 的依赖程度与 AI 在该任务类型中的实际表现相匹配时，用户就拥有了“校准信任”。过度依赖（信任度超过了准确性所能支撑的范围）和依赖不足（信任度低于准确性所能支撑的范围）是对称的失败。两者导致的结果都比校准信任要差。

大多数 AI 产品都会产生失准的用户。问题在于，在任何特定时刻，这种失准是趋向于过度信任还是信任不足——这两者都会以不同的方式扼杀产品的采用。

一个较少被讨论的棘手之处是：LLM 本身就是失准的。研究显示，某些模型的预期校准误差（ECE）高达 0.726，而准确率仅为 23% ——表现出严重的过度自信。如果模型的置信度分数是错误的，那么向用户展示这些分数只会让用户的信任校准变得更糟，而不是更好。你实际上是在将模型的过度自信传播到用户行为中。

真正奏效的设计模式

CHI 2023 对 96 项关于信任校准的实证研究进行了调查，确定了证据最充分的干预措施。它们分为四个类别。

动态、情境化的置信度信息。 仅展示置信度是不够的。没有背景信息的置信度展示几乎总是会被误解。有效的方法是提供特定任务的置信度，它会根据具体的输入产生可见的变化，而不是静态地声明“AI 的准确率为 87%”。用户通过反复观察了解到置信度会根据输入特征而变化，从而开始相应地校准他们的依赖程度。一个 Google PAIR 原则是：倾向于使用定性的置信度级别（高/中/低），而不是数字百分比。“高置信度”比“87.4%”建立了一个更稳健的预期，后者暗示了模型并不具备的精确度。

主动披露局限性。 不要等待用户去发现 AI 做不到什么。在第一次失败发生之前，以具体的术语预先告诉他们。“这个助手在 X 方面表现良好，但在 Y 方面会犯错”比让用户通过糟糕的体验来发现这一点更能保护信任。研究结果是反直觉的：主动披露局限性会增加信任而不是减少信任，因为它使系统的置信度声明变得更加可信。

使信任响应成比例的错误设计。 大多数 AI 产品的失败表现形式都是单一的：输出错了，用户不开心。设计良好的失败状态会区分“AI 不确定并给出了信号”与“AI 很自信但错了”。前者应该是被预期和接受的；后者则需要进行信任修正。如果用户无法从产品的行为中区分这些情况，他们就会将所有的失败都视为系统根本不可靠的证据。

明确的范围边界。 表现最差的 AI 产品通过其界面设计暗示了其能力。一个接受任何查询的 Copilot 暗示它可以很好地回答任何查询。范围约束——明确的任务类别、输入验证、“最擅长”指南——在 AI 有机会意外失败之前就设定了用户预期。

让情况恶化的组织性失败

产品团队通常使用工程指标来衡量 AI 质量：评估准确率、延迟、单次请求成本。这些指标对信任生命周期毫无贡献。一个在评估集上准确率为 85% 的模型，如果那 15% 的错误分布在非常显著、高风险的时刻，而不是低显著、常规的任务中，仍然会导致信任崩塌模式。

没有人去修复的失败模式是：拥有模型的同一个团队也拥有信任指标，而这两者都是根据模型性能来定义的。用户信任校准需要工程团队通常不具备的行为监测手段——会话放弃率、功能绕过率、手动覆盖时间、首次失败后的回访率——而产品团队通常也不会构建这些。结果导致了一个鸿沟，即每个人都在优化的指标（模型准确率）与真正预测留存率的指标（用户信任校准）是正交的。

做得好的组织会将这些测量层级分开。他们独立监测模型准确率和用户信任校准，并将两者的背离视为需要调查的产品失败。

信任恢复是可能的——但需要设计意图

让大多数研究人员感到惊讶的实验发现是：通过精心设计的解释进行信任恢复，不仅能将信任恢复到失败前的水平，甚至可能超过它。如果用户收到了关于 AI 为什么失败的连贯、诚实的解释，并结合了它在邻近案例中表现正确的演示，那么这些用户产生的信任感可能比从未见过失败的用户更高。

其机制在于，失败使系统的置信度声明变得可信。在失败发生之前，系统一直在告诉用户“我对此很有信心”，而没有任何对比。在经过良好解释的失败之后，用户有了一个校准参考点：“当系统出错时，它的行为与正确时不同。”

这意味着失败是一个机会，而不仅仅是负资产。问题在于，你是否像设计成功体验一样，用同样的用心去设计了失败体验。大多数团队都没有做到。

为长期发展而构建

那些交付持久 AI 产品的团队，他们交付的模型并不一定比竞争对手更好。他们在显式地管理信任生命周期。

这意味着：在首次使用前设定准确的预期，而非过高的期望。将 AI 的不确定性在上下文中显性化，而不是埋没在文档里。设计能够维持适当信任的失败状态，而不是让信任彻底崩塌。将用户信任校准作为一项产品指标来追踪，而不是从总体使用情况中推测。并且愿意限制 AI 表现出的功能范围，从而确保界面所做的承诺正是模型实际能够兑现的。

信任校准并非软性的产品问题。它是让技术领先的 AI 真正被采用的机制。信任校准曲线是一个设计问题。大多数团队甚至还没有开始着手解决它。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

信任校准曲线：用户如何学习（误）信任 AI

无人提及的三阶段生命周期

为什么你对“信任”的心智模型是错误的

“校准信任”（Calibrated Trust）的真实含义

真正奏效的设计模式

让情况恶化的组织性失败

信任恢复是可能的——但需要设计意图

为长期发展而构建

Recommended Reading

关于 Tian Pan

无人提及的三阶段生命周期​

为什么你对“信任”的心智模型是错误的​

“校准信任”（Calibrated Trust）的真实含义​

真正奏效的设计模式​

让情况恶化的组织性失败​

信任恢复是可能的——但需要设计意图​

为长期发展而构建​

Recommended Reading

关于 Tian Pan

无人提及的三阶段生命周期

为什么你对“信任”的心智模型是错误的

“校准信任”（Calibrated Trust）的真实含义

真正奏效的设计模式

让情况恶化的组织性失败

信任恢复是可能的——但需要设计意图

为长期发展而构建