重提率：你的评估流水线从未提取出的失败信号

2026年5月22日 · 阅读需 11 分钟

Software Engineer

只要翻开任何足够长的生产环境对话记录，你都会发现有用户会将同一个问题问上三遍。每一轮的措辞都会稍微改变——代词换成了名词，加上了限定词，到第三次尝试时，那些客气的委婉话也消失了——但底层的请求是完全相同的。他们不是在问三个问题。他们是在问同一个问题，而智能体没能给出答案，用户希望这一次表达的方式能产生不同的效果。

这里的对话记录级信号是如此响亮，以至于近乎显而易见。用户已经通过他们的键盘敲击告诉你，之前的回答没有帮助。他们不需要填写调查问卷，不需要点踩。他们通过再次输入问题直接告诉了你。而在大多数生产环境的 AI 技术栈中，这个信号被评估流水线默默丢弃了，因为这些流水线孤立地对每一轮对话评分，而满意度调查仅在会话结束时触发——到那时，那些重复提问三次的用户通常已经流失，永远不会进行任何评分。

这是对话式 AI 中最清晰的隐性失败信号，但几乎没有人去采集它。

轮次级评估掩盖了对话层面的失败

对话类产品的主流评估模式是轮次级评分：根据模型自身表现（忠实度、相关性、事实性、安全性）对每个模型回答进行评分，并将每轮通过率汇总成一个系统级数字。这个汇总数字就是出现在汇报 PPT 里的那个，也是决定下一个模型是否上线的依据。

轮次级评估的问题在于，它评分的是回答，而不是结果。一个回答可能在局部是流利、扣题、且忠实于检索上下文的，但仍然完全偏离了用户的真实意图。轮次级的评估标准里没有“这个回答导致用户重复了他们的问题”这一项，也没有“这个回答在技术上是正确的，但针对的是对问题的错误解读”这一项。用户心知肚明，但评估标准却一无所知。

聊天机器人评估的相关文献已经在跟进这一点。最近的研究明确区分了轮次级指标和会话级指标，并指出即使单轮相关性看起来很高，用户在整个对话中的底层目标也可能未被满足。信息检索社区早在十年前就在网页搜索中发现了这一点：点击是一个嘈杂的信号，但点击后立即进行的查询重组几乎肯定预示着用户没有找到他们想要的东西。同样的动态也适用于对话会话。用户的下一条消息是前一个回答所能得到的最高评价。

CSAT 调查的样本人群有误

团队期望该信号出现的另一个地方是会话结束时的 CSAT 调查。但它并不会出现在那里，原因在于抽样。

会话结束调查的参与者是那些完成了整个会话的用户群体。而在第一个糟糕回答后就流失的用户不在其中，中途转接人工的用户也不在其中。最有资格告诉你机器人出了问题的人——那些因为机器人坏了而离开的人——被有系统地排除在你用来衡量“故障率”的数据集之外。你收集到的调查问卷主要来自那些觉得智能体表现尚可并顺利完成对话的用户，少部分来自有耐心在调查中发泄不满的用户，而真正的失败案例则完全缺失。

这是披着“客户心声”外衣的幸存者偏差。汇总后的 CSAT 看起来不错，因为它只是那些没有被智能体“劝退”的用户的平均值。与此同时，流失用户的“重问”行为正躺在你的日志里无人问津。

“重问”行为背后有数十年的证据支持

将用户的重复行为视为失败信号并不是什么新鲜想法——只是它还没有从网页搜索和传统的 IVR 系统跨越到 LLM 聊天机器人的评估中。

在网页搜索中，查询重组是最受关注的隐性反馈信号之一。研究人员使用它来预测用户满意度，其准确性比单纯基于点击的指标更高，理由是如果用户进行了重组，几乎可以断定原始查询没有满足其需求。重组可以是概括化、具体化、拼写纠正或彻底转向——每种模式都有其自身的诊断权重。旧的 IVR 系统使用“来电者是否按下 0 键以转接人工”作为同类信号：这是一个将用户挫败感转化为可衡量事件的“泄压阀”。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

重提率：你的评估流水线从未提取出的失败信号

轮次级评估掩盖了对话层面的失败

CSAT 调查的样本人群有误

“重问”行为背后有数十年的证据支持

Recommended Reading

关于 Tian Pan

轮次级评估掩盖了对话层面的失败​

CSAT 调查的样本人群有误​

“重问”行为背后有数十年的证据支持​

Recommended Reading

关于 Tian Pan

轮次级评估掩盖了对话层面的失败

CSAT 调查的样本人群有误

“重问”行为背后有数十年的证据支持