信任校准差距：为什么 AI 功能要么被忽视，要么被盲目服从

2026年4月15日 · 阅读需 10 分钟

Software Engineer

你上线了一个 AI 功能。模型表现良好——你量化过它。精确率达 91%，召回率扎实，P99 延迟低于 400ms。三个月后，产品分析给出了一个令人沮丧的数字：高级用户已将其完全关闭，而另一批用户则不加修改地接受每一条建议，包括那些明显错误的。

这就是信任校准差距。它不是模型问题，而是设计问题——而且比大多数 AI 产品团队愿意承认的更为普遍。

根本动态是这样的：对 AI 系统的信任呈双峰分布。见过一次重大失败的用户往往会转向全盘拒绝——研究人员称之为算法厌恶。从未见过失败、或缺乏足够领域专业知识来识别失败的用户，则会滑向自动化偏见：将 AI 输出作为懒惰的启发式工具，而非增强自身判断的辅助手段。

两种极端都不是你构建该功能的初衷。目标是校准信任——用户对 AI 的信心与其实际可靠性相匹配。要实现这一点，需要刻意的产品设计，而不仅仅是模型改进。

双重失效模式

自动化偏见与算法厌恶如同一枚硬币的两面，都代表着对 AI 擅长之处的误判。

自动化偏见表现为被动接受。开发者不加阅读就接受代码建议；临床医生遵循诊断建议，却不检查是否符合临床实际；内容审核员将模型标记的所有内容都视为违规。用户将认知工作卸载给了系统——不是因为系统值得这种信任，而是因为评估每个输出令人精疲力竭，而系统已经对了足够多次，建立起了一种舒适的惯性。

算法厌恶则表现为本能拒绝。同一用户——或另一位用户——目睹模型做出一次自信而灾难性的错误，便得出系统根本不可信的结论。他们开始忽视建议，绕过功能，或将其关闭。整体成功率可能高达 93%，但人类对显著失败的权重远高于统计基准。

这种差距有一个触目惊心的例证：在开发者群体中，84% 的工程师使用 AI 编码工具，但只有 29% 表示信任它们。这两个数字并存，是因为许多用户已学会在不信任 AI 工具的情况下使用它——这是一种应对策略，而非认可。与此同时，另一批用户接受了安全研究人员发现的 AI 生成代码，这些代码在主流工具类别中有 40% 的建议包含漏洞，涵盖注入漏洞和不安全的加密实践。

失败不在于模型不够好，而在于两个群体都没有准确的心智模型来判断 AI 何时可靠。

为什么"加上可解释性"行不通

对信任问题的标准工程反应是透明度：展示推理过程，添加置信度分数，呈现驱动预测的特征。这是必要的，但远远不够。

一项对医疗 AI 研究的系统综述发现了一个反直觉的结果：可解释性干预可靠地提升了用户信任，却未能改善决策准确性。用户查看了解释，感到更有信心，但准确性并未提高。在某些情况下，准确性甚至更低，因为解释增加了认知负担，挤占了用户自身的临床推理空间。

透明度悖论：当信息让用户不堪重负，或用户无法评估推理质量时，更多信息并不能带来更好的决策。缺乏 ML 背景的临床医生无法判断 GradCAM 热力图是否真正高亮了正确区域，便会将复杂可视化的存在本身当作可信度的代理信号。透明度的形式变成了与实际可靠性脱节的信任信号。

置信度分数面临同样的问题。一个校准良好的"73% 置信度"只对理解其含义的用户有用——即 27% 的时间模型是错的，该置信度水平下主要是哪类错误，以及这个特定查询是否属于模型训练分布。大多数用户将置信度分数解读为同意的许可，而非需要处理的信息。

可解释性仍然值得构建，但单独作为信任校准工具，它是不足的。

真正有效的设计模式

有效的是一系列在多个层面运作的设计选择：输出如何呈现、用户在接受前被要求做什么，以及用户对系统自主性拥有多少控制权。

认知强制功能。 在展示 AI 建议之前，先要求用户形成自己的看法。即使是一句简短的提示——"在看到建议之前，你的初步判断是什么？"——也能创造一个阻止被动接受的强制时刻。关于助推干预的研究发现，简单的警告提示要求用户验证自身推理，使他们发现错误 AI 建议的比率几乎翻倍。这种干预不是告诉用户 AI 可能有误，而是在 AI 锚定他们之前，创造出用户运用自身判断的认知时机。

渐进式自主模式。 将功能设计为 AI 代理程度的明确拨盘：

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

信任校准差距：为什么 AI 功能要么被忽视，要么被盲目服从

双重失效模式

为什么"加上可解释性"行不通

真正有效的设计模式

Recommended Reading

关于 Tian Pan

双重失效模式​

为什么"加上可解释性"行不通​

真正有效的设计模式​

Recommended Reading

关于 Tian Pan

双重失效模式

为什么"加上可解释性"行不通

真正有效的设计模式