跳到主要内容

信任校准差距:为什么 AI 功能要么被忽视,要么被盲目服从

· 阅读需 10 分钟
Tian Pan
Software Engineer

你上线了一个 AI 功能。模型表现良好——你量化过它。精确率达 91%,召回率扎实,P99 延迟低于 400ms。三个月后,产品分析给出了一个令人沮丧的数字:高级用户已将其完全关闭,而另一批用户则不加修改地接受每一条建议,包括那些明显错误的。

这就是信任校准差距。它不是模型问题,而是设计问题——而且比大多数 AI 产品团队愿意承认的更为普遍。

根本动态是这样的:对 AI 系统的信任呈双峰分布。见过一次重大失败的用户往往会转向全盘拒绝——研究人员称之为算法厌恶。从未见过失败、或缺乏足够领域专业知识来识别失败的用户,则会滑向自动化偏见:将 AI 输出作为懒惰的启发式工具,而非增强自身判断的辅助手段。

两种极端都不是你构建该功能的初衷。目标是校准信任——用户对 AI 的信心与其实际可靠性相匹配。要实现这一点,需要刻意的产品设计,而不仅仅是模型改进。

双重失效模式

自动化偏见与算法厌恶如同一枚硬币的两面,都代表着对 AI 擅长之处的误判。

自动化偏见表现为被动接受。开发者不加阅读就接受代码建议;临床医生遵循诊断建议,却不检查是否符合临床实际;内容审核员将模型标记的所有内容都视为违规。用户将认知工作卸载给了系统——不是因为系统值得这种信任,而是因为评估每个输出令人精疲力竭,而系统已经对了足够多次,建立起了一种舒适的惯性。

算法厌恶则表现为本能拒绝。同一用户——或另一位用户——目睹模型做出一次自信而灾难性的错误,便得出系统根本不可信的结论。他们开始忽视建议,绕过功能,或将其关闭。整体成功率可能高达 93%,但人类对显著失败的权重远高于统计基准。

这种差距有一个触目惊心的例证:在开发者群体中,84% 的工程师使用 AI 编码工具,但只有 29% 表示信任它们。这两个数字并存,是因为许多用户已学会在不信任 AI 工具的情况下使用它——这是一种应对策略,而非认可。与此同时,另一批用户接受了安全研究人员发现的 AI 生成代码,这些代码在主流工具类别中有 40% 的建议包含漏洞,涵盖注入漏洞和不安全的加密实践。

失败不在于模型不够好,而在于两个群体都没有准确的心智模型来判断 AI 何时可靠。

为什么"加上可解释性"行不通

对信任问题的标准工程反应是透明度:展示推理过程,添加置信度分数,呈现驱动预测的特征。这是必要的,但远远不够。

一项对医疗 AI 研究的系统综述发现了一个反直觉的结果:可解释性干预可靠地提升了用户信任,却未能改善决策准确性。用户查看了解释,感到更有信心,但准确性并未提高。在某些情况下,准确性甚至更低,因为解释增加了认知负担,挤占了用户自身的临床推理空间。

透明度悖论:当信息让用户不堪重负,或用户无法评估推理质量时,更多信息并不能带来更好的决策。缺乏 ML 背景的临床医生无法判断 GradCAM 热力图是否真正高亮了正确区域,便会将复杂可视化的存在本身当作可信度的代理信号。透明度的形式变成了与实际可靠性脱节的信任信号。

置信度分数面临同样的问题。一个校准良好的"73% 置信度"只对理解其含义的用户有用——即 27% 的时间模型是错的,该置信度水平下主要是哪类错误,以及这个特定查询是否属于模型训练分布。大多数用户将置信度分数解读为同意的许可,而非需要处理的信息。

可解释性仍然值得构建,但单独作为信任校准工具,它是不足的。

真正有效的设计模式

有效的是一系列在多个层面运作的设计选择:输出如何呈现、用户在接受前被要求做什么,以及用户对系统自主性拥有多少控制权。

认知强制功能。 在展示 AI 建议之前,先要求用户形成自己的看法。即使是一句简短的提示——"在看到建议之前,你的初步判断是什么?"——也能创造一个阻止被动接受的强制时刻。关于助推干预的研究发现,简单的警告提示要求用户验证自身推理,使他们发现错误 AI 建议的比率几乎翻倍。这种干预不是告诉用户 AI 可能有误,而是在 AI 锚定他们之前,创造出用户运用自身判断的认知时机。

渐进式自主模式。 将功能设计为 AI 代理程度的明确拨盘:

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates