跳到主要内容

信任校准差距:为什么 AI 功能要么被忽视,要么被盲目服从

· 阅读需 10 分钟
Tian Pan
Software Engineer

你上线了一个 AI 功能。模型表现良好——你量化过它。精确率达 91%,召回率扎实,P99 延迟低于 400ms。三个月后,产品分析给出了一个令人沮丧的数字:高级用户已将其完全关闭,而另一批用户则不加修改地接受每一条建议,包括那些明显错误的。

这就是信任校准差距。它不是模型问题,而是设计问题——而且比大多数 AI 产品团队愿意承认的更为普遍。

根本动态是这样的:对 AI 系统的信任呈双峰分布。见过一次重大失败的用户往往会转向全盘拒绝——研究人员称之为算法厌恶。从未见过失败、或缺乏足够领域专业知识来识别失败的用户,则会滑向自动化偏见:将 AI 输出作为懒惰的启发式工具,而非增强自身判断的辅助手段。

两种极端都不是你构建该功能的初衷。目标是校准信任——用户对 AI 的信心与其实际可靠性相匹配。要实现这一点,需要刻意的产品设计,而不仅仅是模型改进。

双重失效模式

自动化偏见与算法厌恶如同一枚硬币的两面,都代表着对 AI 擅长之处的误判。

自动化偏见表现为被动接受。开发者不加阅读就接受代码建议;临床医生遵循诊断建议,却不检查是否符合临床实际;内容审核员将模型标记的所有内容都视为违规。用户将认知工作卸载给了系统——不是因为系统值得这种信任,而是因为评估每个输出令人精疲力竭,而系统已经对了足够多次,建立起了一种舒适的惯性。

算法厌恶则表现为本能拒绝。同一用户——或另一位用户——目睹模型做出一次自信而灾难性的错误,便得出系统根本不可信的结论。他们开始忽视建议,绕过功能,或将其关闭。整体成功率可能高达 93%,但人类对显著失败的权重远高于统计基准。

这种差距有一个触目惊心的例证:在开发者群体中,84% 的工程师使用 AI 编码工具,但只有 29% 表示信任它们。这两个数字并存,是因为许多用户已学会在不信任 AI 工具的情况下使用它——这是一种应对策略,而非认可。与此同时,另一批用户接受了安全研究人员发现的 AI 生成代码,这些代码在主流工具类别中有 40% 的建议包含漏洞,涵盖注入漏洞和不安全的加密实践。

失败不在于模型不够好,而在于两个群体都没有准确的心智模型来判断 AI 何时可靠。

为什么"加上可解释性"行不通

对信任问题的标准工程反应是透明度:展示推理过程,添加置信度分数,呈现驱动预测的特征。这是必要的,但远远不够。

一项对医疗 AI 研究的系统综述发现了一个反直觉的结果:可解释性干预可靠地提升了用户信任,却未能改善决策准确性。用户查看了解释,感到更有信心,但准确性并未提高。在某些情况下,准确性甚至更低,因为解释增加了认知负担,挤占了用户自身的临床推理空间。

透明度悖论:当信息让用户不堪重负,或用户无法评估推理质量时,更多信息并不能带来更好的决策。缺乏 ML 背景的临床医生无法判断 GradCAM 热力图是否真正高亮了正确区域,便会将复杂可视化的存在本身当作可信度的代理信号。透明度的形式变成了与实际可靠性脱节的信任信号。

置信度分数面临同样的问题。一个校准良好的"73% 置信度"只对理解其含义的用户有用——即 27% 的时间模型是错的,该置信度水平下主要是哪类错误,以及这个特定查询是否属于模型训练分布。大多数用户将置信度分数解读为同意的许可,而非需要处理的信息。

可解释性仍然值得构建,但单独作为信任校准工具,它是不足的。

真正有效的设计模式

有效的是一系列在多个层面运作的设计选择:输出如何呈现、用户在接受前被要求做什么,以及用户对系统自主性拥有多少控制权。

认知强制功能。 在展示 AI 建议之前,先要求用户形成自己的看法。即使是一句简短的提示——"在看到建议之前,你的初步判断是什么?"——也能创造一个阻止被动接受的强制时刻。关于助推干预的研究发现,简单的警告提示要求用户验证自身推理,使他们发现错误 AI 建议的比率几乎翻倍。这种干预不是告诉用户 AI 可能有误,而是在 AI 锚定他们之前,创造出用户运用自身判断的认知时机。

渐进式自主模式。 将功能设计为 AI 代理程度的明确拨盘:

  • 建议模式 — AI 展示选项,但不采取默认行动
  • 确认模式 — AI 提出具体行动,等待明确批准
  • 自动模式 — AI 自主行动并记录日志供后续审查

用户应能控制自己处于哪种模式,默认应为与风险相称的最保守模式。这为过度信任者提供了内置摩擦机制,也让怀疑者得以在不需要完全信任的情况下使用功能。随着时间推移,使用模式会揭示信任如何发展,以及摩擦在哪里过高。

透明校准反馈。 向用户展示他们与 AI 互动的历史记录。"本月你推翻了 23 条建议;其中 18 次你的判断是正确的,5 次接受 AI 建议会更好"这样的数据面板,让用户有真实依据来更新心智模型。这与预测中校准得以实现的反馈回路相同——超级预测者之所以擅长概率估计,是因为他们得到了对预测的系统性反馈。大多数 AI 产品对用户与系统交互质量的反馈为零。

验证路径。 当用户能够通过独立渠道验证部分输出时,信任便会建立。代码建议可以链接到单元测试;医疗 AI 建议可以与临床指南交叉参考;日程安排优化可以与手动方案对比。让抽查变得容易并不会降低采用率,反而会提升它——因为验证过几个输出并发现正确的用户,对于提升信任有了合理的依据。

风险自适应呈现。 高风险决策比低风险决策需要更多摩擦和更多解释。关于如何格式化消息的建议,一键接受即可。关于是否延长信用额度或将交易标记为欺诈的建议,则需要两步确认并展示可见推理。跨决策类型的统一呈现会产生统一的(错误)校准信任。

群体问题

个体校准干预是必要的,但不充分,因为你是在为一个用户群体设计,而非单个用户。

同一功能会被拥有 15 年领域经验、能批判性评估每个输出的专家使用,也会被尚未建立心智模型、不知道 AI 何时出错的初级员工使用,以及介于两者之间的所有人使用。个体信任校准因领域专业知识、自动化先验经验、认知风格,以及某天所承载的认知负荷而异。

这意味着你无法设定单一的自主级别和信任呈现策略,并期望它对所有人奏效。产品设计需要适应性调整。一个实用方法是:使用行为信号随时间推断信任校准。持续推翻某类建议的用户可能在该领域拥有相关专业知识,应看到更细粒度的控制。立即接受一切建议的用户可能受益于定期提示验证样本。

更深层的含义是组织层面的:AI 产品中的信任校准不是一次性设计决策,而是一个持续的监控和反馈问题。你需要衡量的不仅是用户是否接受建议,还有这些被接受的建议是否带来了更好的结果。没有这个信号,你就无法知道信任校准是否有效。

智能体时代带来的变化

信任错误校准的风险正在升级。随着 AI 功能从推荐转向自主行动——智能体浏览网页、编写并执行代码、发送电子邮件、修改数据库——自动化偏见的代价从"接受了一个平庸的建议"升级为"让智能体基于有缺陷的计划做出了不可逆的更改"。

消费者调查显示,77% 的受访者对 AI 智能体代表他们自主行动感到担忧。这不是非理性的算法厌恶,而是对系统失效模式尚未被大多数用户理解的适当怀疑。

对于智能体功能,设计要务是在执行前让 AI 意图清晰可见。用户应能用通俗语言看到智能体计划做什么,在任何不可逆行动发生之前。确认模式模式从可选的用户体验考量变成了硬性要求。审计追踪——智能体做了什么、为什么、结果如何——需要既可访问又易于理解,而不是埋藏在只有工程师才会查看的日志里。

为校准信任而设计

目标不是最大化信任,也不是最小化信任,而是让用户的信任与现实相符。这比听起来更难,因为信任建立在感知之上,而非仅仅是性能表现。

以下几条原则在各种背景下都适用:

信任通过可验证的经验建立,而非声称。告诉用户模型很准确并不能校准信任。让用户验证输出并看到验证结果才能做到。为验证而设计,而非仅仅断言。

控制感在信任形成中胜过准确性。研究一致发现,感知到的控制——能够审查、修改或推翻系统的能力——是适当信任的更强预测因子,而非单独的准确性。为可审查性而构建。让用户能问"为什么是这个?"并得到他们能评估的答案。

校准需要反馈。没有数据,用户无法调整心智模型。在 AI 建议与下游结果之间形成闭环。让这种反馈可见、个性化且可操作。

信任校准差距是一个可解决的问题。它需要将信任不视为优秀模型的涌现属性,而视为你衡量、设计并迭代的产品质量——就像你对待延迟或正确性一样。

References:Let's stay in touch and Follow me for more thoughts and updates