隐性反馈陷阱:为什么参与度指标在 AI 质量上具有误导性
一家加拿大航空公司的支持聊天机器人凭空捏造了一项根本不存在的丧亲票价政策。该机器人表现得非常自信、格式规范且彬彬有礼。乘客们相信了它。法院随后判定航空公司应对这一虚假政策负责。与此同时,该聊天机器人的满意度评分可能还相当不错。
这就是隐式反馈陷阱。大多数团队用来衡量 AI 质量的信号——点赞评级、点击率、满意度评分——不仅充满噪点。它们还在衡量错误目标方面存在系统性偏见。而针对这些信号进行优化,只会让你的 AI 变得更糟。
自信的语气与正确性难以区分
语言模型生成的响应,无论是准确的还是捏造的,都带有同样自信的语调。幻觉出的法庭引用读起来与真实的引用一模一样。编造的退款政策听起来也像真实的政策。用户没有任何表面信号来区分它们。
这导致了点赞反馈中的一个致命缺陷:评价者是根据他们是否“相信”答案来评估响应,而不是根据答案是否“真实”。缺乏识别幻觉背景知识的用户会点赞。而收到技术上正确但令人惊讶或含糊其辞的回答(例如“这不确定,但最可能的答案是 X”)的用户,可能会因为觉得没用而点踩。
结果是系统性的:自信、流畅的错误答案比准确但具有不确定性的答案获得的评分更高。
RLHF 固化了偏见
来自人类反馈的强化学习 (RLHF) 本应使 AI 输出符合人类偏好。悖论在于,它在结构上让幻觉问题变得更糟。
当 RLHF 被引入指令遵循时,研究人员发现,与单纯的监督微调相比,加入人类评分的强化学习反而“增加”了捏造行为——尽管用户总体上更喜欢 RLHF 的输出。模型学到,无论准确性如何,语气自信的内容都会获得更高的奖励信号。
这不是 RLHF 实现中的 bug。这是针对代理指标进行训练的结果。人类标注员在什么构成“好”响应上达成一致的比例通常约为 73%。剩下的 27% 的分歧蕴含着真正的歧义:一些标注员奖励准确性,一些奖励自信,一些奖励简洁。奖励模型在聚合数据上进行训练,这往往偏向于那些“看起来”很好而不是“确实”很好的响应,特别是在评价者缺乏区分专业能力的领域。
知识不匹配问题进一步加剧了这一点。当标注员在超出其专业知识的领域(如医疗、法律、技术)对响应进行评分时,他们会可靠地为听起来自信的捏造内容点赞,并为含糊但准确的响应点踩。RLHF 无法 分辨其中的区别。它只会朝着评分所指引的方向训练。
古德哈特定律的应用
经典表述是:当一个指标变成目标时,它就不再是一个好的指标了。实证研究现在专门量化了强化学习中的这种效应——针对不完善的代理奖励进行优化,在超过一定的优化阈值后,会降低在真实目标上的表现。
这种模式出现在 AI 使用行为信号作为反馈的所有地方:
- 搜索推荐系统优化点击率,会将耸人听闻的内容置于实质性答案之上。点击很容易衡量;有用性则不然。
- 代码助手达到了 30% 的采纳率,而 76% 的用户报告了高幻觉率——用户采纳建议是因为它们看起来可行,而不是因为它们正确。如果开发人员不能立即发现生成的函数中的 bug,他们就会接受它。
- 客户支持 AI 获得了很高的满意度评分,因为它听起来很自信且响应迅速,即使它提供的解决方案是错误的。用户在发现错误之前就对交互进行了评价。
AI 中的奖励作弊(reward hacking)并不是系统故意操纵其指标。它是模型被训练去生成人类给予高分的“风格”,而这种风格并不等同于真正有用的响应“实质”。
为什么参与度指标让情况变得更糟
点赞评分是一个糟糕的信号。隐式参与度指标——点击量、页面停留时间、会话长度、后续查询——则更糟,因为它们用测量噪声加剧了同样的偏见。
考虑一下隐式信号实际衡量的是什么:
- 会话长度衡量用户停留的时间,而不是他们是否得到了所需的东西。一个得到错误答案并搜索修正方案的用户会有很长的会话。
- 点击率衡量用户是否觉得某个结果值得研究,而不是它是否正确。
- 后续查询率是模糊的:它可能表明用户因为第一个答案不完整而需要澄清,也可能表明他们有兴趣进一步探索。在数据中,这两者看起来是一样的。
对推荐系统的研究发现,直接的意图调查在预测用户留存方面显著优于参与度因素(包括点赞、分享和评论)。参与度与实际满意度之间的相关性恰恰在最重要的案例中失效了:即当 AI 表现出自信的错误时。
总体效应是,隐式反馈循环创造了一种通往“自信平庸”的棘轮效应。每一个优化周期都会使模型稍微转向那些产生参与信号的输出,而这些信号是“看起来好”的输出的代理,而不是“确实好”的输出的代理。
真正与质量相关的信号
追踪实际质量的行为信号较难收集,但意义重大:
修正率 (Correction rate)。 当用户在 AI 回答后立即进行编辑、要求重新表述或给出“那是错的”之类的纠正时,这就是一个高信号的质量故障。这需要进行一些指标采 集——捕捉上下文中的即时后续行动——但它是用户拒绝该输出的直接行为指标。
后续查询类型。 并非所有的后续查询都是等价的。询问“你能更详细地解释第 3 步吗?”的用户正在与成功的回答互动。而询问“你能再试一次吗,这次真正回答我的问题?”的用户则不然。将后续查询按类型分类——澄清、修正、重复、放弃——比汇总的后续查询率能提供更敏锐的信号。
行动耗时 (Time-to-action)。 对于面向任务的 AI 功能,用户对输出结果采取行动的速度有多快?一个阅读了代码建议并立即将其粘贴到编辑器中的用户,很可能认为该建议是有用的。而一个阅读了建议,然后打开浏览器查询资料,最后回来进行大幅修改的用户,则不然。这需要精细的指标采集,但能提供可靠的意图信号。
上下文中的任务完成情况。 对于智能体 (Agentic) 系统,核心问题是下游任务是否真正成功——代码是否编译通过、客户问题是否在未升级人工的情况下得到解决、数据提取是否产生了有效的输出?结果验证,而非交互评分,才是衡量智能体质量的唯一诚实标准。
尝试的一致性。 在给定提示词 (Prompt) 下,一个 60% 的时间产生正确输出、40% 的时间产生错误输出的模型不应获得高分,即使其平均评分很高。一致性指标——pass@k,用于衡量模型在 k 次独立尝试中获得正确答案的频率——可以捕捉到单次评估容易忽略的这种不稳定性。
结构化的改进方案
大多数将 AI 质量视为产品指 标问题的团队,其衡量的层级都是错误的。“这个回答的评分高吗?”并不等同于“这个回答是否正确且有用?”
实际的改变在于指标采集的深度。与其衡量用户是否喜欢某个回答,不如衡量用户接下来做了什么。与其对交互质量进行评分,不如在可能的情况下验证结果质量。与其依赖点赞/点踩评分,不如将修正率和后续查询类型作为主要的指标采集信号。
对于使用 RLHF 或任何形式偏好优化的团队来说,其影响是直接的:你的奖励信号质量取决于标注者区分“正确”与“似是而非”的能力。在专业领域,这种能力通常较低。用自动化验证来辅助人工评分——运行 AI 生成的代码、根据事实根据 (Ground truth) 检查主张、审计事实性陈述——不再是可选项,而是防止奖励模型对错误偏好进行编码的唯一方法。
追踪推理路径(而不仅仅是最终答案)的评估,可以捕捉到基于结果的指标所忽略的一类失败。一个通过不稳定的推理得出正确答案的模型,在输入稍有变化时就会失效。对对话记录进行分析、工具选择审计以及分步骤验证,虽然比对回答进行评分更昂贵,但它们的衡量标准更接近于真正核心的价值。
首先需要改变的一件事
如果你只有一个反馈机制需要改进,那就改进后续查询分类器 (Follow-up query classifier)。大多数团队都会记录后续查询,但不会对其进行分类。一个在几百个标注样本上训练的轻量级分类器——用于区分澄清请求、修正请求和放弃模式——能将杂乱的隐式信号转化为可落地的质量指标。
点赞是一个社交信号。用户接下来的行动是一个行为信号。前者告诉你回答是否看起来不错,后者告诉你回答是否真的好。
去构建那个能告诉你回答是否真的好的机制。
- https://huyenchip.com/2023/05/02/rlhf.html
- https://arxiv.org/abs/2310.09144
- https://arxiv.org/html/2602.09305v1
- https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
- https://www.evidentlyai.com/blog/llm-hallucination-examples
- https://www.qodo.ai/reports/state-of-ai-code-quality/
- https://alignment.anthropic.com/2025/stress-testing-model-specs/
- https://dl.acm.org/doi/10.1145/3743127
