4 篇博文含有标签「trust-calibration」

那个因为你的智能体表现得过于自信而流失的客户

2026年6月1日 · 阅读需 10 分钟

Software Engineer

用户向智能体问了一个常规问题。智能体用一种胸有成竹的语调回答了。用户信任了这个答案，采取了行动，结果整个下午都在撤回一封基于错误信息发送给客户的邮件。六周后，续约谈判无疾而终。在流失分析报告中，这一项被归类为“参与度低”。而真正的理由——“我再也不敢相信它了”——从未出现在任何仪表盘上，因为用户根本没有打开那个本该询问该问题的 CSAT 调研。

这是大多数交付 AI 产品的团队系统性忽视的失败模式。不是幻觉——幻觉只是显露出来的冰山一角。深潜于水面之下的是置信度失准（confidence miscalibration）：模型实际掌握的信息与它表达时的确信程度之间的差距。而这种差距带来的代价并非体现在调研问卷中，而是在续约谈判定夺的那一刻。

“重新生成”按钮作为一项产品决策：当“再生”功能让用户不再信任你

2026年5月14日 · 阅读需 12 分钟

Tian Pan

Software Engineer

重新生成（reroll）按钮是 AI 产品中最容易发布的 UX 交互功能。一个图标，一个处理器，在下一个请求中加一个清除缓存（cache-busting）的标志位。这似乎是对非确定性系统显而易见的妥协 —— 模型是随机的，所以让用户重新采样。两周的工程开发，发布到正式版（GA），然后开始下一个功能的开发。

六个月后，团队查看会话日志，发现中位深度用户每条回复会点击 2.4 次重新生成。第 90 百分位的用户会点击 8 次。有些用户已经完全不再阅读第一条回复 —— 他们发送提示词后，立即重新生成两次，然后才开始评估这三个草稿中哪一个最不差。团队发布的不是一个重新生成按钮，而是一种行为重塑，教会了他们的用户把模型当作一台老虎机。

70% 可靠性恐怖谷：AI 功能丧失用户信任的深渊

2026年4月28日 · 阅读需 13 分钟

Tian Pan

Software Engineer

一个故障率高达 70% 的功能是无害的。用户在一周内就会发现他们必须验证每一条输出，将系统视为一个不可靠的助手，并做出相应调整。而一个成功率达到 70% 的功能则更糟糕。它正确的频率足以让用户停止验证，而错误的频率又足以让失败变得集中、显眼且具有针对性。用户的心理模型会崩塌为“我不知道什么时候该信任它” —— 这种产品体验从根本上比“我知道不要信任它”更糟糕。

这就是 70% 的恐怖谷，也是过去两年中构建的大多数 AI 功能所处的位置。团队衡量综合准确率，看着数值超过某个“足够好”的阈值，然后发布。实际的用户体验并不随着这个数字单调提升。在大约 60% 到 85% 的准确率之间，产品随着准确率的提高反而变得更差，因为用户因疏于检查而导致的错误成本，超过了他们无需验证正确答案所带来的价值。

那些在不考虑可预测性问题的情况下发布 70% 准确率产品的团队，发布的并不是一个 95% 产品的拙劣版本。他们发布的是一个完全不同的产品：一个主要的失效模式是隐形的产品。

为什么弃用 AI 功能比你想象的更难：用户构建了你看不见的信任脚手架

2026年4月27日 · 阅读需 11 分钟

Tian Pan

Software Engineer

2025 年 8 月，当 OpenAI 试图从 ChatGPT 中移除 GPT-4o 时，遭遇了强烈的抵制——有组织的标签、付费用户威胁取消订阅、几天内的公开反转——最终迫使公司将其恢复为默认选项，并承诺在未来任何移除之前提供“实质性通知”。替换它的模型在团队关注的每一项基准测试中都表现得更好。但这并不重要。用户已经花了几个月的时间来了解该模型的怪癖，根据其失效模式校准自己的判断，并将它的特定措辞整合进团队从未检测过的工作流中。用“更好的版本”替换它，会让这种校准归零。

这种失效模式是标准的弃用策略手册所未涵盖的。下线一个常规的 SaaS 功能——宣布、迁移、灰度发布移除、退役——假设用户契约是 API 接口。而对于 AI 功能，契约是模型的观察行为：措辞、倾向、失效模式，以及它处理歧义的特定方式。用户在这些行为之上构建了“脚手架”，而这些脚手架大多存在于他们的头脑中、笔记本电脑上以及你的团队从未触及的下游系统中。

关于 Tian Pan