信任校准差距:为什么 AI 功能要么被忽视,要么被盲目服从
你上线了一个 AI 功能。模型表现良好——你量化过它。精确率达 91%,召回率扎实,P99 延迟低于 400ms。三个月后,产品分析给出了一个令人沮丧的数字:高级用户已将其完全关闭,而另一批用户则不加修改地接受每一条建议,包括那些明显错误的。
这就是信任校准差距。它不是模型问题,而是设计问题——而且比大多数 AI 产品团队愿意承认的更为普遍。
根本动态是这样的:对 AI 系统的信任呈双峰分布。见过一次重大失败的用户往往会转向全盘拒绝——研究人员称之为算法厌恶。从未见过失败、或缺乏足够领域专业知识来识别失败的用户,则会滑向自动化偏见:将 AI 输出作为懒惰的启发式工具,而非增强自身判断的辅助手段。
两种极端都不是你构建该功能的初衷。目标是校准信任——用户对 AI 的信心与其实际可靠性相匹配。要实现这一点,需要刻意的产品设计,而不仅仅是模型改进。
双重失效模式
自动化偏见与算法厌恶如同一枚硬币的两面,都代表着对 AI 擅长之处的误判。
自动化偏见表现为被动接受。开发者不加阅读就接受代码建议;临床医生遵循诊断建议,却不检查是否符合临床实际;内容审核员将模型标记的所有内容都视为违规。用户将认知工作卸载给了系统——不是因为系统值得这种信任,而是因为评估每个输出令人精疲力竭,而系统已经对了足够多次,建立起了一种舒适的惯性。
算法厌恶则表现为本能拒绝。同一用户——或另一位用户——目睹模型做出一次自信而灾难性的错误,便得出系统根本不可信的结论。他们开始忽视建议,绕过功能,或将其关闭。整体成功率可能高达 93%,但人类对显著失败的权重远高于统计基准。
这种差距有一个触目惊心的例证:在开发者群体中,84% 的工程师使用 AI 编码工具,但只有 29% 表示信任它们。这两个数字并存,是因为许多用户已学会在不信任 AI 工具的情况下使用它——这是一种应对策略,而非认可。与此同时,另一批用户接受了安全研究人员发现的 AI 生成代码,这些代码在主流工具类别中有 40% 的建议包含漏洞,涵盖注入漏洞和不安全的加密实践。
失败不在于模型不够好,而在于两个群体都没有准确的心智模型来判断 AI 何时可靠。
为什么"加上可解释性"行不通
对信任问题的标准工程反应是透 明度:展示推理过程,添加置信度分数,呈现驱动预测的特征。这是必要的,但远远不够。
一项对医疗 AI 研究的系统综述发现了一个反直觉的结果:可解释性干预可靠地提升了用户信任,却未能改善决策准确性。用户查看了解释,感到更有信心,但准确性并未提高。在某些情况下,准确性甚至更低,因为解释增加了认知负担,挤占了用户自身的临床推理空间。
透明度悖论:当信息让用户不堪重负,或用户无法评估推理质量时,更多信息并不能带来更好的决策。缺乏 ML 背景的临床医生无法判断 GradCAM 热力图是否真正高亮了正确区域,便会将复杂可视化的存在本身当作可信度的代理信号。透明度的形式变成了与实际可靠性脱节的信任信号。
置信度分数面临同样的问题。一个校准良好的"73% 置信度"只对理解其含义的用户有用——即 27% 的时间模型是错的,该置信度水平下主要是哪类错误,以及这个特定查询是否属于模型训练分布。大多数用户将置信度分数解读为同意的许可,而非需要处理的信息。
可解释性仍然值得构建,但单独作为信任校准工具,它是不足的。
真正有效的设计模式
有效的是一系列在多个层面运作的设计选择:输出如何呈现、用户在接受前被要求做什么,以及用户对系统自主性拥有多少控制权。
认知强制功能。 在展示 AI 建议之前,先要求用户形成自己的看法。即使是一句简短的提示——"在看到建议之前,你的初步判断是什么?"——也能创造一个 阻止被动接受的强制时刻。关于助推干预的研究发现,简单的警告提示要求用户验证自身推理,使他们发现错误 AI 建议的比率几乎翻倍。这种干预不是告诉用户 AI 可能有误,而是在 AI 锚定他们之前,创造出用户运用自身判断的认知时机。
渐进式自主模式。 将功能设计为 AI 代理程度的明确拨盘:
- 建议模式 — AI 展示选项,但不采取默认行动
- 确认模式 — AI 提出具体行动,等待明确批准
- 自动模式 — AI 自主行动并记录日志供后续审查
用户应能控制自己处于哪种模式,默认应为与风险相称的最保守模式。这为过度信任者提供了内置摩擦机制,也让怀疑者得以在不需要完全信任的情况下使用功能。随着时间推移,使用模式会揭示信任如何发展,以及摩擦在哪里过高。
透明校准反馈。 向用户展示他们与 AI 互动的历史记录。"本月你推翻了 23 条建议;其中 18 次你的判断是正确的,5 次接受 AI 建议会更好"这样的数据面板,让用户有真实依据来更新心智模型。这与预测中校准得以实现的反馈回路相同——超级预测者之所以擅长概率估计,是因为他们得到了对预测的系统性反馈。大多数 AI 产品对用户与系统交互质量的反馈为零。
验证路径。 当用户能够通过独立渠道验证部分输出时,信任便会建立。代码建议可以链接到单元测试;医疗 AI 建议可以与临床指南交叉参考;日程安排优化可以与手动方案对比。让抽查变得容易并不会降低采用率,反而会提升它——因为验证过几个输出并发现正确的用户,对于提升信任有了合理的依据。
风险自适应呈现。 高风险决策比低 风险决策需要更多摩擦和更多解释。关于如何格式化消息的建议,一键接受即可。关于是否延长信用额度或将交易标记为欺诈的建议,则需要两步确认并展示可见推理。跨决策类型的统一呈现会产生统一的(错误)校准信任。
群体问题
个体校准干预是必要的,但不充分,因为你是在为一个用户群体设计,而非单个用户。
同一功能会被拥有 15 年领域经验、能批判性评估每个输出的专家使用,也会被尚未建立心智模型、不知道 AI 何时出错的初级员工使用,以及介于两者之间的所有人使用。个体信任校准因领域专业知识、自动化先验经验、认知风格,以及某天所承载的认知负荷而异。
这意味着你无法设定单一的自主级别和信任呈现策略,并期望它对所有人奏效。产品设计需要适应性调整。一个实用方法是:使用行为信号随时间推断信任校准。持续推翻某类建议的用户可能在该领域拥有相关专业知识,应看到更细粒度的控制。立即接受一切建议的用户可能受益于定期提示验证样本。
更深层的含义是组织层面的:AI 产品中的信任校准不是一次性设计决策,而是一个持续的监控和反馈问题。你需要衡量的不仅是用户是否接受建议,还有这些被接受的建议是否带来了更好的结果。没有这个信号,你就无法知道信任校准是否有效。
智能体时代带来的变化
信任错误校准的风险正在升级。随着 AI 功能从推荐转向自主行动——智能体浏览网页、编写并执行代码、发送电子邮件、修改数据库——自动化偏见的代价从"接受了一个平庸的建议"升级为"让智能体基于有缺陷的计划做出了不可逆的更改"。
消费者调查显示,77% 的受访者对 AI 智能体代表他们自主行动感到担忧。这不是非理性的算法厌恶,而是对系统失效模式尚未被大多数用户理解的适当怀疑。
对于智能体功能,设计要务是在执行前让 AI 意图清晰可见。用户应能用通俗语言看到智能体计划做什么,在任何不可逆行动发生之前。确认模式模式从可选的用户体验考量变成了硬性要求。审计追踪——智能体做了什么、为什么、结果如何——需要既可访问又易于理解,而不是埋藏在只有工程师才会查看的日志里。
为校准信任而设计
目标不是最大化信任,也不是最小化信任,而是让用户的信任与现实相符。这比听起来更难,因为信任建立在感知之上,而非仅仅是性能表现。
以下几条原则在各种背景下都适用:
信任通过可验证的经验建立,而非声称。告诉用户模型很准确并不能校准信任。让用户验证输出并看到验证结果才能做到。为验证而设计,而非仅仅断言。
控制感在信任形成中胜过准确性。研究一致发现,感知到的控制——能够审查、修改或推翻系统的能力——是适当信任的更强预测因子,而非单独的准确性。为可审查性而构建。让用户能问"为什么是这个?"并得到他们能评估的答案。
校准需要反馈。没有数据,用户无法调整心智模型。在 AI 建议与下游结果之间形成闭环。让这种反馈可见、个性化且可操作。
信任校准差距是一个可解决的问题。它需要将信任不视为优秀模型的涌现属性,而视为你衡量、设计并迭代的产品质量——就像你对待延迟或正确性一样。
- https://www.tandfonline.com/doi/full/10.1080/10447318.2025.2487861
- https://dl.acm.org/doi/10.1145/3696449
- https://link.springer.com/article/10.1007/s00146-025-02422-7
- https://pmc.ncbi.nlm.nih.gov/articles/PMC12221052/
- https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2024.1382693/full
- https://www.uxmatters.com/mt/archives/2025/04/designing-ai-user-interfaces-that-foster-trust-and-transparency.php
- https://cset.georgetown.edu/wp-content/uploads/CSET-AI-Safety-and-Automation-Bias.pdf
- https://www.sciencedirect.com/science/article/pii/S1877050925030042
- https://ai.jmir.org/2024/1/e53207
- https://arxiv.org/abs/2001.02114
- https://academic.oup.com/jcmc/article/28/1/zmac029/6827859
- https://arxiv.org/abs/2503.15511
- https://www.mckinsey.com/capabilities/tech-and-ai/our-insights/tech-forward/state-of-ai-trust-in-2026-shifting-to-the-agentic-era
- https://stackoverflow.blog/2026/02/18/closing-the-developer-ai-trust-gap/
- https://dl.acm.org/doi/10.1145/3613904.3642671
- https://arxiv.org/html/2402.07632v4
