跳到主要内容

构建信任修复流程:当你的 AI 犯下显而易见的错误后该怎么办

· 阅读需 11 分钟
Tian Pan
Software Engineer

当 Google 的 AI Overview 建议用户在披萨酱中加胶水,并为了消化健康而吃石头时,这不仅仅是让产品团队蒙羞——它暴露了我们在思考 AI 可靠性方面的系统性鸿沟。失败的原因不仅在于模型错了。失败的原因在于模型在高度受关注的情境下“自信地”犯错,而且没有为被误导的用户提供任何补救路径。

对 AI 系统的信任并非逐渐流失。研究表明,它遵循一种“悬崖式”崩塌模式:一个明显的错误就能导致信任度大幅下降,并产生可衡量的影响。只有 29% 的开发者表示他们信任 AI 工具——尽管采用率攀升至 84%,但这一比例比前一年下降了 11 个百分点。我们正在构建人们虽然在使用但并不信任的系统。当你的产品发布了代表用户行动的智能体 (agentic) 功能时,这种差距就显得至关重要。

本篇文章讨论的是工程师和产品构建者在错误发生“之后”应该做什么——而不仅仅是如何预防错误。

硬性失败与软性失败之间的不对称性

AI 系统中有两种失败模式,它们对信任的破坏方式不同。

硬性失败 (Hard failures) 是显而易见的:系统崩溃、返回错误或拒绝完成任务。用户能意识到出问题了。他们虽然感到沮丧,但不会根据错误信息采取行动。系统的无能是可见的,这反而在逻辑上维护了认知安全 (epistemic safety)。

软性失败 (Soft failures) 则是自信的错误答案。模型以极高的确定性生成听起来合理的输出,用户信以为真并付诸行动,而错误往往在很久之后才会浮出水面——如果能被发现的话。比如律师在真实的法庭陈述中引用虚假的案例;消费者遵循了违反税法的 AI 生成财务建议;或者一位教授两年的研究成果被没有撤销选项的 AI 助手删除了。

软性失败更为糟糕,因为在错误被发现之前,损害已经扩散。关于临床 AI 的研究发现,高置信度得分增加了用户的依赖性,但反而在逻辑上降低了诊断准确率——用户在最应该质疑系统的时候停止了二次检查。同样的模式出现在各个领域:自信的错误答案比承认不确定性更损害信任,但这种损害只有在用户已经采取行动后才会显现。

实际的启示是:你系统的置信度呈现方式是一种信任机制,而不仅仅是一个 UX 选择。 为了显得更有能力而隐藏不确定性,在错误暴露时会产生适得其反的效果。

信任修复到底需要什么

对自动化的信任是一个动态过程,随着用户经验的积累而不断重新调整。它不是你一次性获得的评分,而是用户在每次交互中更新的实时评估。好消息是信任是可以恢复的。对人类-AI 财务顾问系统的研究发现,在采取正确的干预措施后,信任在错误发生后能迅速恢复。坏消息是,修复需要刻意的设计,而不仅仅是修复底层的 bug。

在成功的信任修复中,经常会出现三个要素:

承认出了问题。 在错误发生后,结合了遗憾和解释的道歉信息对用户的自我评价有显著的积极影响。简短的道歉反馈让系统显得不再那么机械,更具情感共鸣。这并不意味着要将错误状态拟人化,而是指用平实的语言承认系统失败了,而不是使用晦涩的状态码。“我们为你提供了错误的信息”与“Error 503”是完全不同的。

解释发生的原因。 在受控研究中,阐明系统限制和原因的解释显示出可衡量的信任修复效果。了解系统“为什么”失败的用户可以推断出未来“何时”可以信任它。如果没有解释,他们就无法建立重新校准的模型——要么彻底放弃信任,要么完全不更新认知。

一条可见的后续路径。 两三个清晰的修复选项可以恢复掌控感:重试请求、使用简化的回退方案或转人工处理。缺乏修复路径本身就是一个信任信号。当 ChatGPT 在没有撤销机制的情况下删除了某位教授的研究历史时,这种行为的不可逆性与损失本身一样具有破坏性。

修复流程的工程模式

优雅降级链

生产环境中的 AI 系统应当“向下”失败,而不是直接“罢工”。一个经过测试的回退链看起来像这样:完整 AI 响应 → 简化 AI 响应 → 基于规则的响应 → 人工接管。每一层都应该明确说明它所提供的内容以及系统为何回退到这一层。

隐形回退——即系统在用户不知情的情况下更换供应商或模型——比显性回退更快地消磨信任。用户愿意接受局限性,但不愿意接受不可预测性。如果你的主模型不可用,并且你正在提供降级响应,请明确告知。

置信度阈值与选择性解释

并非所有不确定性都应以相同的方式呈现。对临床 AI 应用的研究发现,70–99% 的置信度区间非常适合自动覆盖不可靠的响应,而 0–40% 的区间则受益于详细的解释。高置信度的输出不需要内联辩护——添加它会增加认知负荷而不会带来价值。低置信度的输出则需要明确的不确定性信号。

实现层面的启示:不要将置信度显示为数字(用户会错误地校准数值概率)。相反,应使用行为信号——例如显示备选选项、在执行操作前请求确认,或将其路由至人工审核。系统的行为比百分比更能可靠地传达不确定性。

撤销与回滚作为一等公民功能

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates