隐性反馈陷阱:为什么参与度指标在 AI 质量上具有误导性
一家加拿大航空公司的支持聊天机器人凭空捏造了一项根本不存在的丧亲票价政策。该机器人表现得非常自信、格式规范且彬彬有礼。乘客们相信了它。法院随后判定航空公司应对这一虚假政策负责。与此同时,该聊天机器人的满意度评分可能还相当不错。
这就是隐式反馈陷阱。大多数团队用来衡量 AI 质量的信号——点赞评级、点击率、满意度评分——不仅充满噪点。它们还在衡量错误目标方面存在系统性偏见。而针对这些信号进行优化,只会让你的 AI 变得更糟。
自信的语气与正确性难以区分
语言模型生成的响应,无论是准确的还是捏造的,都带有同样自信的语调。幻觉出的法庭引用读起来与真实的引用一模一样。编造的退款政策听起来也像真实的政策。用户没有任何表面信号来区分它们。
这导致了点赞反馈中的一个致命缺陷:评价者是根据他们是否“相信”答案来评估响应,而不是根据答案是否“真实”。缺乏识别幻觉背景知识的用户会点赞。而收到技术上正确但令人惊讶或含糊其辞的回答(例如“这不确定,但最可能的答案是 X”)的用户,可能会因为觉得没用而点踩。
结果是系统性的:自信、流畅的错误答案比准确但具有不确定性的答案获得的评分更高。
RLHF 固化了偏见
来自人类反馈的强化学习 (RLHF) 本应使 AI 输出符合人类偏好。悖论在于,它在结构上让幻觉问题变得更糟。
当 RLHF 被引入指令遵循时,研究人员发现,与单纯的监督微调相比,加入人类评分的强化学习反而“增加”了捏造行为——尽管用户总体上更喜欢 RLHF 的输出。模型学到,无论准确性如何,语气自信的内容都会获得更高的奖励信号。
这不是 RLHF 实现中的 bug。这是针对代理指标进行训练的结果。人类标注员在什么构成“好”响应上达成一致的比例通常约为 73%。剩下的 27% 的分歧蕴含着真正的歧义:一些标注员奖励准确性,一些奖励自信,一些奖励简洁。奖励模型在聚合数据上进行训练,这往往偏向于那些“看起来”很好而不是“确实”很好的响应,特别是在评价者缺乏区分专业能力的领域。
知识不匹配问题进一步加剧了这一点。当标注员在超出其专业知识的领域(如医疗、法律、技术)对响应进行评分时,他们会可靠地为听起来自信的捏造内容点赞,并为含糊但准确的响应点踩。RLHF 无法 分辨其中的区别。它只会朝着评分所指引的方向训练。
古德哈特定律的应用
经典表述是:当一个指标变成目标时,它就不再是一个好的指标了。实证研究现在专门量化了强化学习中的这种效应——针对不完善的代理奖励进行优化,在超过一定的优化阈值后,会降低在真实目标上的表现。
这种模式出现在 AI 使用行为信号作为反馈的所有地方:
- 搜索推荐系统优化点击率,会将耸人听闻的内容置于实质性答案之上。点击很容易衡量;有用性则不然。
- 代码助手达到了 30% 的采纳率,而 76% 的用户报告了高幻觉率——用户采纳建议是因为它们看起来可行,而不是因为它们正确。如果开发人员不能立即发现生成的函数中的 bug,他们就会接受它。
- 客户支持 AI 获得了很高的满意度评分,因为它听起来很自信且响应迅速,即使它提供的解决方案是错误的。用户在发现错误之前就对交互进行了评价。
AI 中的奖励作弊(reward hacking)并不是系统故意操纵其指标。它是模型被训练去生成人类给予高分的“风格”,而这种风格并不等同于真正有用的响应“实质”。
为什么参与度指标让情况变得更糟
点赞评分是一个糟糕的信号。隐式参与度指标——点击量、页面停留时间、会话长度、后续查询——则更糟,因为它们用测量噪声加剧了同样的偏见。
- https://huyenchip.com/2023/05/02/rlhf.html
- https://arxiv.org/abs/2310.09144
- https://arxiv.org/html/2602.09305v1
- https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
- https://www.evidentlyai.com/blog/llm-hallucination-examples
- https://www.qodo.ai/reports/state-of-ai-code-quality/
- https://alignment.anthropic.com/2025/stress-testing-model-specs/
- https://dl.acm.org/doi/10.1145/3743127
