跳到主要内容

那个因为你的智能体表现得过于自信而流失的客户

· 阅读需 10 分钟
Tian Pan
Software Engineer

用户向智能体问了一个常规问题。智能体用一种胸有成竹的语调回答了。用户信任了这个答案,采取了行动,结果整个下午都在撤回一封基于错误信息发送给客户的邮件。六周后,续约谈判无疾而终。在流失分析报告中,这一项被归类为“参与度低”。而真正的理由——“我再也不敢相信它了”——从未出现在任何仪表盘上,因为用户根本没有打开那个本该询问该问题的 CSAT 调研。

这是大多数交付 AI 产品的团队系统性忽视的失败模式。不是幻觉——幻觉只是显露出来的冰山一角。深潜于水面之下的是置信度失准(confidence miscalibration):模型实际掌握的信息与它表达时的确信程度之间的差距。而这种差距带来的代价并非体现在调研问卷中,而是在续约谈判定夺的那一刻。

大多数产品团队都有模型准确率指标。很少有团队拥有衡量“模型在出错时听起来如何”的指标。几乎没有团队拥有衡量“如果语气对冲校准得更好,用户是否会做出不同决策”的指标。而最后一个指标,才是预测流失的关键。

对冲话术是产品表面,而非副作用

工程师认为置信度是模型内部生成的东西——概率、logit、softmax 输出。用户看不到这些。用户看到的是句子。“截止日期是 3 月 14 日。”“我相信截止日期是 3 月 14 日。”“截止日期似乎是 3 月 14 日,但你可能需要确认一下。” 底层的陈述相同,但产生的下游行为却截然不同。

对冲话术(hedge phrase)是将置信度转化为可操作信息的“产品表面”。但大多数团队却将其视为次要的——一种由系统提示词(system prompt)撰写者决定的风格选择,通过“感觉”进行校准,从未被测量,也从未进行版本化管理。最近关于语言不确定性的研究表明,中等程度的对冲——即特定的校准对冲,而非盲目自信或习惯性的“我不知道”——能产生最佳的协作效果。擅长对冲的模型能教会用户何时该去验证,何时该采取行动。而不擅长对冲的模型则会让用户陷入要么质疑一切、要么信任一切的境地,这两种模式最终都会走向失败。

之所以这是一个产品问题而非研究问题,是因为对冲是“双语”的。模型有内部概率,而用户有行为阈值。对冲就是翻译官。如果翻译官失职,用户就会越过本不该越过的行为阈值——其后果不由模型承担,而由用户承担。

两种校准失败在模型端看起来完全一样

对冲失准有两种方式,从工程角度看它们似乎是同一个问题。其实不然。

第一种是过度自信(overconfidence):模型错了,但听起来很确定。用户听信了陈述,陈述是错误的,用户付出了代价。这是导致信任破裂事故的失败模式。

第二种是信心不足(underconfidence):模型是对的,但话语中带有对冲。用户对答案打折扣,独立进行验证,久而久之发现这个模型不值得咨询,因为反正每次都得自己检查。这种失败模式不会产生事故——只会导致用户慢慢放弃使用。

两者都辜负了用户。但只有第一种会出现在复盘报告中。第二种则无处可寻,因为没有发生任何值得调查的事件。用户只是停止使用该功能,活跃度曲线下滑,而团队可以用无数理由来解释这种下滑。

只测量幻觉率的团队会针对第一种失败模式进行优化,却无意中放大了第二种——针对“模型过于自信”的标准修复方案是让它在所有场景下更激进地进行对冲,这导致每个输出听起来都不确定,从而彻底摧毁了对冲信号的价值。

为什么 CSAT 完全遗漏了这一点

被过度自信的陈述伤害过的客户有一种特定的行为模式。他们会减少产品使用。他们不再打开那个让他们受挫的界面。他们会绕过它——重新启用以前使用的搜索工具,去询问同事,或者在行动前进行外部核实。他们不会提交支持工单,因为当错误行为产生的后果显现时,已经没有什么具体的槽点可以抱怨了。他们也不会填写 CSAT 调研,因为他们在心理上已经退出了该产品。

传统 CSAT 工具的调研回复率在 5% 到 10% 之间波动,回复人群主要由极端情况主导——非常满意的和非常愤怒的。那些默默失去信任的用户不属于其中任何一类。他们并不愤怒,而是听天由命。他们会在回复续约邮件时说“我们决定尝试不同的方向”,因为如果要解释 AI 智能体在六周前自信地告诉了他们一些错误信息,而他们至今仍未完全恢复信任,这对他们来说并不是一个想跟续约代表进行的对话。

这意味着信任流失是一个通过团队并未掌握的测量工具进行传播的流失信号。团队会看到流失的结果,并在已有的数据(定价、功能需求、竞争劣势)中寻找解释,而真正的驱动因素却始终隐形。

缩小差距的具体模式

好消息是,这种差距是可以弥合的,而弥合差距的关键在于将置信度展示视为其一贯应有的“一等产品表面(first-class product surface)”。以下是几种行之有效的模式:

由产品团队主导的置信度显示风格指南。 定义一小组面向用户的对冲短语(hedge phrases)——建议设为三到五个层级,不要更多——并将模型的校准概率范围映射到这些短语上。“答案是 X。”“我认为是 X,但你可能需要验证 Y。”“我没有足够的信息来自信地回答这个问题——这是我会去核实的内容。”该风格指南应有版本管理,映射关系可调优,并且模型必须被限制输出这些层级短语之一,而不是即兴发挥。产品团队负责这个交互界面;AI 团队负责驱动哪个层级触发的校准逻辑。这样一来,对冲不再是风格上的偶然,而变成了一种契约。

“智能体置信度 vs. 用户行为”的评估(eval)。 这是没人运行的评估,因为它需要将模型输出与下游用户行为结合起来。困难的版本是在历史记录样本中衡量:如果对冲短语强一个层级或弱一个层级,用户是否会做出不同的决定。简单的版本则是让人工标注员评分:对冲短语是否恰当地匹配了答案的正确性。两者都优于标准的仅针对准确率的评估,因为它们衡量的是模型与阅读它的用户之间的共同行为——而这才是产品最终交付的东西。

将信任缺失事件与结果关联的续费群组分析。 在操作层面定义“信任缺失事件”:用户根据智能体的输出采取行动,随后不久又采取了纠正行为;或者通过不同的界面询问相同的问题;或者在相当长一段时间内停止使用该功能。在用户维度追踪这些事件,然后在群组维度将它们与续费结果关联。做过这项工作的团队会得到一个惊人的结果:信任缺失事件对流失(churn)的预测能力远好于任何单一的功能使用指标,而且它比续费日期提前数周发出预警。

区分信任与满意度的客户成功(CS)协议。 “你对产品满意吗?”和“你信任产品的答案吗?”是两个不同的问题,它们之间的相关性比你想象的要低。满意度是一种感性认知(vibe);信任则是一种行为承诺。如果 CS 团队能同时询问这两个问题,并将信任下降视为独立于满意度下降的先行指标,就能捕捉到仪表盘漏掉的流失风险。

领导层的认知觉醒

有一个管理框架可以让这一点变得具体。想象一下,智能体交付的每一个过度自信的断言都贴着一个价目表。价格标签不是幻觉本身的成本——那是由用户承担的。价格标签是当用户的“信任预算”耗尽时,损失掉的续费预期价值。如果你的模型每天对用户说十句话,其中大约每二十个断言中有一个是以导致用户端小故障的方式过度自信的,那么你构建的产品就在大约几个月内耗尽了一笔续费——这个时间取决于这些故障积累到用户个人信任阈值所需的时间。

这个阈值因用户、利害关系以及替代方案而异——一个拥有良好非 AI 工作流的用户可能会在第一次踩坑后就离开,而一个别无选择的用户可能会忍受多次。但群体行为是一致的:模型在用每一个过度自信的句子消耗公司的信任余额,而续费就是账单到期的时刻。

如果不将信任作为独立于满意度的维度来衡量,团队就会错估每一次夸大词语的交付成本。他们会不断优化准确率指标,看着它季度复季度地提高,却不理解为什么续费群组的表现持续疲软。他们会从产品路线图、定价或竞争格局中寻找答案,而真正的答案是:他们交付的产品听起来过于自信了,续费数据表最终让这些隐性成本浮出水面。

解决方案不是更高的准确率,而是校准后的谦逊。它应该像任何其他 UI 示能(affordance)一样作为产品表面交付——经过设计、衡量、版本化并由专人负责。AI 团队可以构建校准逻辑,产品团队必须交付对冲短语,而客户成功团队必须意识到,信任是一个不同于满意度的数字,它是决定续费的关键。

那些因为你的智能体过于自信而取消订阅的用户,并没有给你写愤怒的邮件。他们只是悄无声息地关闭了标签页。

References:Let's stay in touch and Follow me for more thoughts and updates