为什么你的“点踩”数据在误导你：生产环境 AI 反馈循环中的选择偏差

2026年4月10日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你在六个月前为你的 AI 功能上线了“点赞/点踩”按钮。你有了数千条评分。你构建了仪表盘。你甚至针对负面案例进行了微调。然而，你的产品却在反馈数据无法解释的方面变得越来越糟。

问题不在于用户对自己不喜欢的东西判断错误。问题在于，点击反馈按钮的用户相对于你的实际用户群体来说，是一个具有系统性非代表性的样本——而你基于这些数据做出的每一个决定都会继承他们的偏差。

1–3% 问题

在生产环境的 AI 应用中，显性反馈率始终维持在总交互量的 1% 到 3% 之间。这意味着，在你的模型处理的每 100 次对话中，最多只有三个用户愿意点击任何按钮。另外 97 个人没有留下任何满意或沮丧的痕迹。

这并不是因为懒惰。这是一种理性行为。对 AI 输出进行评分对用户没有直接好处。交互已经结束了。评估一个回答是否“好”——尤其是在模棱两可的情况下——所产生的认知成本，超过了大多数人愿意为一项免费行动付出的成本。

评分的用户并非随机样本。他们聚集为两个群体：对产品改进有投入感的资深用户（Power users），以及刚遇到严重到足以激发点击欲望的失败体验的沮丧用户。广大的中间地带——那些得到了还可以但并不出色的回答的用户、得到了错误答案但未察觉的用户、默默绕过限制的用户——都是不可见的。

这是教科书式的无回答偏差（Non-response bias），而且它比没有数据更糟糕，因为它看起来像是数据。

沉默的大多数隐藏了什么

评分者与非评分者之间的差距不仅仅是数量上的。更在于他们所代表的体验分布。

资深用户过度报告细微问题。 你最活跃的用户会根据他们见过的最佳输出校准期望。一个能让普通用户满意的回答，可能会让一个知道模型可以做得更好的专业用户给出“点踩”。针对他们的投诉进行微调，是以牺牲主流可用性为代价，去优化专家偏好。

沮丧用户过度报告灾难性失败。 当一个人愤怒到点击“点踩”时，他们通常遇到了彻底的失败——幻觉、拒绝回答、语无伦次的输出。这些确实是真实存在的问题，但它们已经是你最显而易见的失败。与此同时，那些微妙的问题——语调略显不对、上下文缺失、技术上正确但实际没用的答案——永远不会进入你的反馈管道。

满意的用户几乎是不可见的。 “点赞”的点击率甚至比“点踩”还要低。得到所需内容的用户直接就离开了。这意味着你的正向案例也偏向于热情的资深用户，并不代表中位数用户心目中的“足够好”是什么样子。

最终结果：你的反馈数据过度代表了极端情况，而低估了质量分布的中间地带，而这正是你大多数用户所在的区域，也是大多数改进机会隐藏的地方。

偏好崩塌放大器

收集阶段的选择偏差已经足够糟糕了。但当你将偏差数据喂给 RLHF 或奖励模型训练时，这种偏差会被放大。

发表在《美国统计协会杂志》（Journal of the American Statistical Association, 2025）上的研究表明，标准的 RLHF 由于其基于 KL 散度的正则化，存在固有的算法偏差。在极端情况下，这会导致 偏好崩塌（Preference collapse） ——一种少数派偏好从模型输出分布中几乎被完全抹去的现象。测量到的不平衡可能达到 0% vs. 100%，这意味着整个用户群体的偏好被归零。

现在将此与收集偏差结合起来。如果你的“点踩”数据已经低估了某些用户群体（如普通用户、非英语母语者、在“错误”定义模糊的任务上的用户），这些群体的偏好会以较低的权重进入训练管道。基于 KL 的 RLHF 会进一步抑制他们。结果就是：模型在满足你嗓门最大的用户的同时，对其他所有人的表现都在默默下降。

这形成了一个恶性循环。随着模型针对资深用户的偏好进行优化，普通用户的体验变得更差。体验更差意味着更多沉默的流失。更多沉默的流失意味着来自该细分群体的数据点更少。数据点更少意味着在下一轮训练中的代表性更低。

比按钮更有价值的五个隐性信号

解决方案不是移除显式反馈，而是停止将其视为基准真相（Ground truth），并建立能捕获 100% 用户行为信号的监测机制。

1. 编辑距离 / 修改与完成比（Edit distance / correction-to-completion ratio）。 如果你的 AI 生成草稿（邮件、代码、文档），请测量用户在使用前对输出进行了多少修改。未经编辑直接发送的回答是一个强烈的正向信号。从头重写的回答则是一个强烈的负面信号——而这类用户可能永远不会点击你的“点踩”按钮。基于压缩的编辑距离研究显示，它与人类编辑工作的相关性达到 0.81，使其成为最可靠的自动化质量代理指标之一。

2. 会话放弃模式。 一个问完问题就离开的用户并不是满意，而是放弃了。跟踪单轮放弃会话与多轮参与会话的比例。按查询类型进行细分，找出哪些任务类别导致了沉默的失败。在得到一个听起来自信的错误答案后放弃会话，是一个比显式投诉更危险的信号，因为这意味着用户可能已经接受了错误。

3. 重试和重新表述率。 当用户立即重新表述他们的问题时，他们是在告诉你第一个回答没有达到目的。这种信号非常密集——其发生率通常比显式反馈高出约 10 到 20 倍——而且具有上下文：你既得到了失败的查询，也得到了重新表述的尝试，两者结合揭示了用户所问与所想之间的差距。

4. 复制和下游使用。 如果你的产品支持，请跟踪用户是否复制了 AI 输出、将其粘贴到其他上下文中，或根据建议采取行动。一个被复制到文件并通过测试的代码建议是通过行为验证的。一个被忽略的建议在行为上是被拒绝的，无论用户是否点击过按钮。

5. 下一步行动的时间间隔（Time-to-next-action）。 AI 回答后长时间的停顿可能表示困惑、重复阅读或事实核查——这些都是回答没有立即生效的信号。短暂的停顿后紧接着采取行动，则表明回答是有帮助且清晰的。这个信号孤立来看存在噪音，但与其他信号结合时非常强大。

打造真实的反馈流水线

从基于按钮的反馈转向基于行为的反馈需要架构层面的变革，而不单纯是增加事件追踪。

将收集与标注分离。 在交互层级收集所有行为事件 —— 时间戳、编辑距离、会话流、后续行动。在单独的处理步骤中将它们标记为正面/负面信号，而不是在收集时标记。这让你能够随着对哪些信号与实际质量相关的认知加深，动态调整标注逻辑，而无需重新埋点你的产品。

按覆盖范围而非置信度进行加权。 在结合显性信号和隐性信号时，根据隐性信号覆盖的用户广度对其进行加权。一个用户的点踩是一个数据点。200 个用户在特定查询类型上的会话放弃模式则是 200 个数据点，即便这些用户中没有一个人明确投诉。构建你的训练信号以反映整体人群，而不是声音最大的人。

对“足够好”区域进行埋点。 最难捕获的细分市场是那些获得了可接受但有改进空间响应的用户。对于文本生成任务，追踪编辑距离分布 —— 那些获得 10-30% 编辑的响应聚类代表了你最大的质量提升机会，而这在显性反馈中是完全不可见的。对于对话任务，追踪那些细化而非重试的后续问题，这标志着部分的成功。

进行幸存者审计。 定期在你可以衡量的维度（如租期、使用频率、任务类型、会话长度）上，将提供显性反馈的用户特征与完整用户群进行比较。如果你的评分者偏向于长期、高频用户（他们几乎肯定如此），请明确量化这种偏差对你质量指标的扭曲程度，并应用修正权重。

衰减陈旧信号。 随着模型改进和竞争对手设定新的基准，用户预期会发生变化。六个月前的行为信号反映的是与今天不同的质量标准。对你的训练数据应用基于时间的衰减，并定期重新校准哪些行为阈值构成正面与负面信号。

埋点清单

如果你正从点赞/点踩设置开始，这里有一个增量路径：

第 1 周： 增加会话级事件追踪 —— 查询时间戳、响应时间戳、后续行动时间戳、会话结束事件。仅此一项就能告诉你流失率。
第 2 周： 对用户可以修改的任何输出埋点编辑距离。按查询类别追踪未编辑与大幅编辑响应的比例。
第 3 周： 通过使用语义相似度比较会话内的连续查询来检测重试/改写模式。措辞不同但相似度分数高于 0.7 是改写信号。
第 4 周： 构建一个综合质量评分，将显性评分（如有）与隐性信号混合，并按覆盖范围加权。将其与仅有点踩的数据指标进行对比 —— 差异将准确地向你展示按钮数据在哪里撒了谎。

带来的改变

持续对隐性行为信号进行埋点的团队通常会发现同一件事：他们的显性反馈只告知了约 15-20% 的质量问题，且严重偏向于高级用户关心的故障模式。剩下的 80% —— 沉默的不满、悄无声息的放弃、本可以很出色的“足够好”响应 —— 以前都是不可见的。

目标不是抛弃显性反馈。花时间评价你输出的用户正在为你提供宝贵的信号，他们的抱怨通常指向真实的问题。目标是停止将你的整个质量模型建立在与其他人有系统性差异的 1-3% 用户之上。

你的点踩按钮没有坏。它只是在告诉你那些点击点踩按钮的人所遇到的问题。而这些人并不代表你的全部用户 —— 他们是你用户中的一个有偏样本，两者之间的差距正是你的产品质量在悄悄被侵蚀的地方。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

为什么你的“点踩”数据在误导你：生产环境 AI 反馈循环中的选择偏差

1–3% 问题

沉默的大多数隐藏了什么

偏好崩塌放大器

比按钮更有价值的五个隐性信号

打造真实的反馈流水线

埋点清单

带来的改变

Recommended Reading

关于 Tian Pan

1–3% 问题​

沉默的大多数隐藏了什么​

偏好崩塌放大器​

比按钮更有价值的五个隐性信号​

打造真实的反馈流水线​

埋点清单​

带来的改变​

Recommended Reading

关于 Tian Pan

1–3% 问题

沉默的大多数隐藏了什么

偏好崩塌放大器

比按钮更有价值的五个隐性信号

打造真实的反馈流水线

埋点清单

带来的改变