那个因冗长输出比更佳答案更能触发点击处理器的 A/B 测试赢家
一项提示词变体(prompt-variant)实验在某款 AI 辅助搜索产品的生产流量上运行。成功指标是点击响应中的任何建议操作。变体 B 交付的响应长度增加了大约 40%,且包含更多列举出的选项。点击率(CTR)高出 11%,且具有三个九(99.9%)的统计显著性。该实验被判定为获胜并上线。
一个月后,每周客户满意度调查下降了两个点。没人将其与上线联系起来,因为实验已被记录为成功,团队已经转向其他工作。季度复盘最终将满意度下降追溯到提示词的更改,诊断结果令人难以接受:变体 B 胜出并不是因为它给了用户更好的答案,而是因为更长的回答包含了更多的点击表面(clickable surfaces)。点击处理器在每次展示中触发得更频繁,是因为有更多可点击的内容,而不是因为你阅读的内容更值得采取行动。
错误不在统计数据上。p 值是真实的,提升是真实的,样本量也是诚实的。错误在于成功指标衡量的是响应的“形状”(shape),而响应的形状是提示词变体可以在不改变潜在质量的情况下直接改 变的东西。这场实验是在错误的维度上进行的一场公平竞争。
形状如何在无人作弊的情况下获胜
AI 产品的参与度指标在输出的表面积与任何单一参与事件触发的概率之间存在一种隐藏的耦合。点击率、操作调用率、建议后续动作采纳率 —— 每一项都是针对响应本身产生的事件进行计算的。一个包含三个建议操作的响应有三次触发指标的机会,而包含七个的则有七次。你并没有变得更感兴趣;而是响应变得更“好点”了。
这并非 LLM 所特有。产品团队多年来一直在衡量长内容的参与度,并且知道分页、无限滚动和推荐轮播都会通过增加参与项的库存来夸大参与计数。新鲜之处在于 LLM 改变输出形状的成本是多么低廉。仅需一行提示词修改,就能将答案从三个要点变成十个。无需设计评审,无需开发工单,也无需权衡用户体验。 “响应呈现多少表面积”的变动空间对任何提示词实验都是敞开的,任何与单次展示参与度相关的指标都会默默地奖励这种扩张,直到其他地方出现问题。
这种现象也延伸到了点击之外。当响应内容更长、阅读时间更久时,页面停留时间会上升。当有更多独立的块可以复制时,剪贴板复制率会上升。点赞按钮的点击量可能会增加,因为冗长的答案让你感觉更“完整”,即便它们在简短答案也会犯错的地方同样犯错,只是篇幅更长。你所衡量的任何处于“响应产生更多文本”下游的指标,都会奖励产生更多文本的行为。
为什么长度偏见有着似曾相识的渊源
如果“冗长即奖励”的失败模式听起来很耳熟,那确实应该如此。LLM 评估社区多年来一直在与基于评委(judge-based)对比中的长度偏见(length bias)作斗争。像 GPT-4 这样的模型,在被要求从两个候选响应中做出选择时,即使有明确的准则要求看重简洁性,也会系统性地更倾向于较长的响应。这种偏见是如此顽固,以至于从业者现在通常会发布长度归一化后的胜率,文献中也已明确命名了这一现象。
同样的动态正出现在更高一层的产品分析中。生产环境中的评委不是 LLM,而是点击处理器。其机制不同 —— 你点击更多是因为按钮更多,而不是因为你在认知上更喜欢长文本 —— 但失败模式在结构上是完全相同的。处于响应形状下游的指标,必然会向能够最大化其触发机会的响应形状倾斜。交付更长变体的团队所发现的,正是自聊天机器人时代开启以来一直扭曲 LLM-as-judge 基准测试的同一种长度偏见的产品化版本。
这种联系之所以重要,是因为它告诉你修复方法并非针对单次实验的一次性修正。修复必须成为实验系统本身的一种属性。任何针对输出形状可变的产品,利用参与度指标来运行提示词或模型变体的团队都面临风险。更长的变体往往会胜出。如果团队不将这种动态命名为每次实验的协变量(covariate),就会不断上线冗长的内容,直到数月后下游的满意度信号迫使他们进行清算。
指标完全是在各司其职
- https://aclanthology.org/2025.findings-emnlp.358/
- https://www.sebastiansigl.com/blog/llm-judge-biases-and-how-to-fix-them/
- https://arxiv.org/pdf/2509.26072
- https://towardsdatascience.com/goodharts-law-and-the-dangers-of-metric-selection-with-a-b-testing-91b48d1c1bef/
- https://www.sciencedirect.com/science/article/pii/S2666389922000563
- https://eugeneyan.com/writing/counterfactual-evaluation/
- https://www.searchenginejournal.com/ai-overviews-cut-organic-clicks-38-field-study-finds/573145/
- https://mixpanel.com/blog/guardrail-metrics/
- https://statsig.com/blog/what-are-guardrail-metrics-in-ab-tests
- https://arxiv.org/pdf/2402.11609
