构建信任修复流程：当你的 AI 犯下显而易见的错误后该怎么办

2026年5月5日 · 阅读需 11 分钟

Software Engineer

当 Google 的 AI Overview 建议用户在披萨酱中加胶水，并为了消化健康而吃石头时，这不仅仅是让产品团队蒙羞——它暴露了我们在思考 AI 可靠性方面的系统性鸿沟。失败的原因不仅在于模型错了。失败的原因在于模型在高度受关注的情境下“自信地”犯错，而且没有为被误导的用户提供任何补救路径。

对 AI 系统的信任并非逐渐流失。研究表明，它遵循一种“悬崖式”崩塌模式：一个明显的错误就能导致信任度大幅下降，并产生可衡量的影响。只有 29% 的开发者表示他们信任 AI 工具——尽管采用率攀升至 84%，但这一比例比前一年下降了 11 个百分点。我们正在构建人们虽然在使用但并不信任的系统。当你的产品发布了代表用户行动的智能体 (agentic) 功能时，这种差距就显得至关重要。

本篇文章讨论的是工程师和产品构建者在错误发生“之后”应该做什么——而不仅仅是如何预防错误。

硬性失败与软性失败之间的不对称性

AI 系统中有两种失败模式，它们对信任的破坏方式不同。

硬性失败 (Hard failures) 是显而易见的：系统崩溃、返回错误或拒绝完成任务。用户能意识到出问题了。他们虽然感到沮丧，但不会根据错误信息采取行动。系统的无能是可见的，这反而在逻辑上维护了认知安全 (epistemic safety)。

软性失败 (Soft failures) 则是自信的错误答案。模型以极高的确定性生成听起来合理的输出，用户信以为真并付诸行动，而错误往往在很久之后才会浮出水面——如果能被发现的话。比如律师在真实的法庭陈述中引用虚假的案例；消费者遵循了违反税法的 AI 生成财务建议；或者一位教授两年的研究成果被没有撤销选项的 AI 助手删除了。

软性失败更为糟糕，因为在错误被发现之前，损害已经扩散。关于临床 AI 的研究发现，高置信度得分增加了用户的依赖性，但反而在逻辑上降低了诊断准确率——用户在最应该质疑系统的时候停止了二次检查。同样的模式出现在各个领域：自信的错误答案比承认不确定性更损害信任，但这种损害只有在用户已经采取行动后才会显现。

实际的启示是：你系统的置信度呈现方式是一种信任机制，而不仅仅是一个 UX 选择。 为了显得更有能力而隐藏不确定性，在错误暴露时会产生适得其反的效果。

信任修复到底需要什么

对自动化的信任是一个动态过程，随着用户经验的积累而不断重新调整。它不是你一次性获得的评分，而是用户在每次交互中更新的实时评估。好消息是信任是可以恢复的。对人类-AI 财务顾问系统的研究发现，在采取正确的干预措施后，信任在错误发生后能迅速恢复。坏消息是，修复需要刻意的设计，而不仅仅是修复底层的 bug。

在成功的信任修复中，经常会出现三个要素：

承认出了问题。 在错误发生后，结合了遗憾和解释的道歉信息对用户的自我评价有显著的积极影响。简短的道歉反馈让系统显得不再那么机械，更具情感共鸣。这并不意味着要将错误状态拟人化，而是指用平实的语言承认系统失败了，而不是使用晦涩的状态码。“我们为你提供了错误的信息”与“Error 503”是完全不同的。

解释发生的原因。 在受控研究中，阐明系统限制和原因的解释显示出可衡量的信任修复效果。了解系统“为什么”失败的用户可以推断出未来“何时”可以信任它。如果没有解释，他们就无法建立重新校准的模型——要么彻底放弃信任，要么完全不更新认知。

一条可见的后续路径。 两三个清晰的修复选项可以恢复掌控感：重试请求、使用简化的回退方案或转人工处理。缺乏修复路径本身就是一个信任信号。当 ChatGPT 在没有撤销机制的情况下删除了某位教授的研究历史时，这种行为的不可逆性与损失本身一样具有破坏性。

修复流程的工程模式

优雅降级链

生产环境中的 AI 系统应当“向下”失败，而不是直接“罢工”。一个经过测试的回退链看起来像这样：完整 AI 响应 → 简化 AI 响应 → 基于规则的响应 → 人工接管。每一层都应该明确说明它所提供的内容以及系统为何回退到这一层。

隐形回退——即系统在用户不知情的情况下更换供应商或模型——比显性回退更快地消磨信任。用户愿意接受局限性，但不愿意接受不可预测性。如果你的主模型不可用，并且你正在提供降级响应，请明确告知。

置信度阈值与选择性解释

并非所有不确定性都应以相同的方式呈现。对临床 AI 应用的研究发现，70–99% 的置信度区间非常适合自动覆盖不可靠的响应，而 0–40% 的区间则受益于详细的解释。高置信度的输出不需要内联辩护——添加它会增加认知负荷而不会带来价值。低置信度的输出则需要明确的不确定性信号。

实现层面的启示：不要将置信度显示为数字（用户会错误地校准数值概率）。相反，应使用行为信号——例如显示备选选项、在执行操作前请求确认，或将其路由至人工审核。系统的行为比百分比更能可靠地传达不确定性。

撤销与回滚作为一等公民功能

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

构建信任修复流程：当你的 AI 犯下显而易见的错误后该怎么办

硬性失败与软性失败之间的不对称性

信任修复到底需要什么

修复流程的工程模式

优雅降级链

置信度阈值与选择性解释

撤销与回滚作为一等公民功能

Recommended Reading

关于 Tian Pan

硬性失败与软性失败之间的不对称性​

信任修复到底需要什么​

修复流程的工程模式​

优雅降级链​

置信度阈值与选择性解释​

撤销与回滚作为一等公民功能​

Recommended Reading

关于 Tian Pan

硬性失败与软性失败之间的不对称性

信任修复到底需要什么

修复流程的工程模式

优雅降级链

置信度阈值与选择性解释

撤销与回滚作为一等公民功能