为信任的功能添加 AI：方差如何摧毁你花费多年建立的信任

2026年5月6日 · 阅读需 13 分钟

Software Engineer

你最值得信任的功能也是你最危险的 AI 部署目标。这是一个产品团队不断以惨痛代价发现的直觉相反的现实：用户最依赖的功能，那些信任深厚且自动化的功能，恰恰是 AI 引入的变异性（variance）会造成最灾难性信任损害的地方。一个新功能的失败令人失望，而一个现有功能突然变得不可预测则是一种背叛。

这就是 AI 产品改造陷阱（retrofit trap）。陷阱并不在于决定添加 AI——这通常是正确的；陷阱在于认为在成熟功能中添加 AI 比构建新功能更安全，因为你已经拥有了用户。事实上，情况恰恰相反。你花费数月或数年赢得的信任并不是 AI 实验的基础；如果实验失败，它反而会成为一种负担。

为什么功能改造比新功能更危险

当用户第一次接触新功能时，他们带有经过校准的不确定性。他们知道它可能无法完美工作。他们在过程中形成预期，早期的失败是可以原谅的，因为完美的预期从未存在过。

现有功能则不同。用户已经对这些功能的工作方式建立了准确的心理模型。拼写检查器捕捉拼写错误。邮件自动补全从联系人中建议姓名。付款字段接受有效的信用卡号。这些不是偏好——它们是认知承诺。用户已将部分思维外包给了这些功能，信任它们能正常工作，这样他们就不用再费心思考。

当 AI 为这种契约引入变异性时，故障模式不仅仅是“功能坏了”，而是“我不再能信任我自以为理解的东西”。拼写检查器有时会做出离奇的替换。自动补全偶尔会建议错误的邮件收件人。支付界面跳出意想不到的确认步骤。用户不仅停止使用 AI 功能，他们开始怀疑整个产品。

关于自动化信任的研究一致表明，成熟系统中出现的早期或意外错误对信任的损害远比用户本就持谨慎态度的系统中的相同错误严重得多。这种机制被称为“完美自动化图式（perfect automation schema）”：用户产生了一种隐含的信念，即成熟的、自动化的功能应该完美无缺地工作。他们并不是有意识地持有这种信念，但它支配着他们的行为。

当 AI 破坏这种平衡时——不是通过彻底宕机，而是通过偶尔的、不可预测的错误——用户无法形成稳定的更新模型。他们无法将其校准为“该功能 90% 的时间有效”，因为他们看到的不是统计数据，而是特定时刻的特定失败，且通常发生在关键时刻。

信任不对称性：为什么修复比损害更耗时

Google Photos 事件是这方面的经典案例。2015 年，Google 的图像识别将黑人用户的照片标注为侮辱性词汇。损害是即时且严重的。更糟糕的是回应：Google 并没有解决底层问题，而是悄悄地从分类器中移除了一组灵长类标签。多年后，这种修复依然存在——这一笨拙的手段表明该公司得出结论：根本无法信任 AI 来处理这项任务。

这就是信任不对称性在起作用。损害传播得既快又远。修复却是缓慢的，需要长期持续的完美表现，且往往永远无法完全恢复。

关于算法系统中信任恢复的研究表明，在用户体验早期（即信任稳定之前）发生的错误，与在建立了可靠性关系之后发生的同等错误相比，会造成不成比例的巨大且持久的损害。如果你将 AI 改造进用户已经信任了三年的功能中，第一次明显的失败就会重置大部分已赢得的信任。用户之前的信心现在反而成了对你不利的因素，因为违背契约的感觉更加个人化。

Tesla 的 Autopilot 历史在大规模层面说明了这一点。该功能的命名暗示了完全自动驾驶，这导致用户的心理模型与系统的实际 2 级驾驶辅助能力不匹配。过度信任该功能的驾驶员脱离了驾驶任务；随后的事故部分归因于预期与现实之间的差距。将 Autopilot 作为受信任系统采用，随后在关键时刻遇到其局限性的用户，不仅不再信任 Autopilot，他们还重新评估了与车辆本身的关系。

给产品工程师的教训是：当你改造 AI 时，你不仅仅是在添加一个功能。你是在修改用户已经签署并依赖的信任契约。任何违约——即使是偶然的——都会根据整个关系的完整历史来衡量。

具体的故障模式

了解改造在哪里出错可以帮助你绕过这些故障模式进行设计。

用户期望确定性的地方出现了变异性。 这是核心问题。在邮件收件人字段中输入“John”的用户期望在下拉菜单顶部看到同事 John。每一次都如此。如果增强了 AI 的自动补全开始根据预测意图而不是按字母或近期顺序对联系人进行排名，偶然的失配就会摧毁用户在“自动驾驶”模式下工作的能力。他们现在必须核实每一个建议，这比完全没有自动补全还要糟糕——他们失去了节省的时间，却没有任何收益。

静默的行为变化。 当 AI 在不告知的情况下改变功能行为时，用户会将意料之外的输出视为 Bug。如果一个以前标记被动语态的内容编辑器现在默认重写句子，用户不会认为“这个功能变聪明了”，而是认为“出问题了”。缺乏可见的模式转换意味着用户没有框架来理解发生了什么。

复合错误。 在从用户行为中学习的邮件自动补全系统中，选择错误的收件人不仅会造成一次性问题，还会训练系统在未来重复该错误。根据错误进行适应的 AI 会使错误复合化。功能在用户已经经历过失败的特定领域变得更糟。

信任溢出。 用户不会将信任按功能进行划分。如果你搜索栏中的 AI 给出了一个言之凿凿的错误答案，用户就会开始质疑你产品整个数据层的准确性。如果你编辑工具中的 AI 以用户认为离奇的方式重写文本，他们就会开始怀疑工具中其他的自动化行为是否正常工作。局部的 AI 失败会导致全局的信任不确定性。

分阶段引入：更安全的 AI 改造框架

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

为信任的功能添加 AI：方差如何摧毁你花费多年建立的信任

为什么功能改造比新功能更危险

信任不对称性：为什么修复比损害更耗时

具体的故障模式

分阶段引入：更安全的 AI 改造框架

Recommended Reading

关于 Tian Pan

为什么功能改造比新功能更危险​

信任不对称性：为什么修复比损害更耗时​

具体的故障模式​

分阶段引入：更安全的 AI 改造框架​

Recommended Reading

关于 Tian Pan

为什么功能改造比新功能更危险

信任不对称性：为什么修复比损害更耗时

具体的故障模式

分阶段引入：更安全的 AI 改造框架