重提率:你的评估流水线从未提取出的失败信号
只要翻开任何足够长的生产环境对话记录,你都会发现有用户会将同一个问题问上三遍。每一轮的措辞都会稍微改变——代词换成了名词,加上了限定词,到第三次尝试时,那些客气的委婉话也消失了——但底层的请求是完全相同的。他们不是在问三个问题。他们是在问同一个问题,而智能体没能给出答案,用户希望这一次表达的方式能产生不同的效果。
这里的对话记录级信号是如此响亮,以至于近乎显而易见。用户已经通过他们的键盘敲击告诉你,之前的回答没有帮助。他们不需要填写调查问卷,不需要点踩。他们通过再次输入问题直接告诉了你。而在大多数生产环境的 AI 技术栈中,这个信号被评估流水线默默丢弃了,因为这些流水线孤立地对每一轮对话评分,而满意度调查仅在会话结束时触发——到那时,那些重复提问三次的用户通常已经流失,永远不会进行任何评分。
