A/B 测试陷阱:为什么标准实验设计在 AI 功能中会失效
一个团队上线了一个改进的 LLM 提示词。A/B 测试运行了两周。指标上升了 1.2%,p=0.03。他们将其视为胜利并向所有人发布。六个月后,一次客户审计发现,新提示词一直产生细微的错误摘要——这种语义偏移是点击率和会话时长无法察觉的。A/B 测试并没有完全撒谎。它用一种从未针对 LLM 特性设计的评估方法测量了错误的东西。
标准的 A/B 测试是为确定性系统构建的:按钮更改颜色、页面加载变快、推荐算法调整排名。在给定相同输入的情况下,输出是稳定的,方差较小且易于理解,教科书中的样本量计算公式也适用。然而,对于由 LLM 驱动的功能,这些属性都不成立。如果团队不考虑这一点,他们就不是在进行实验——而是在产生带有统计显著性标签的噪声。
三个失效的假设
经典的实验设计基于三个假设,而 LLM 同时违反了这三个 假设。
确定性。 在传统的特性测试中,向用户展示变体 B 时,对于每个相同的输入都会产生相同的结果。LLM 并非如此。关于推理非确定性的研究发现,即使在 temperature=0(团队为了获得“可靠”输出而选用的设置)下,在相同的提示词上,约 24% 的 GPT-4o-mini 运行产生的输出与第一次运行不同。这并非舍入误差:推理基础设施中的连续批处理(continuous batching)和前缀缓存(prefix caching)引入了提示词设置无法消除的随机性。你不是在测试一种处理方式;你是在从一个分布中采样。
同方差性。 标准的效能计算(power calculations)假设方差在你处理的输入范围内大致恒定。LLM 的输出方差是异方差的(heteroskedastic):它随任务难度而变化。简单的查询在不同运行中显示出 5–10% 的输出差异;复杂的推理任务则显示出 40–60% 的差异。基于聚合方差估算的样本量,对于最难的查询(即正确答案最重要的部分)将是完全错误的。
独立性。 A/B 测试单元应该是独立的:一个用户的体验不应影响另一个用户,并且用户的变体分配在交互过程中应保持稳定。对话式 LLM 系统打破了这两点。第一轮中糟糕的回答会影响用户在第二轮中的提问。如果你的分配逻辑在整个会话中不是确定性的,同一个用户可能会体验到两个变体——这违反了 SUTVA(稳定单位处理值假设),从而破坏了你的处理效应评估。
方差问题比你想象的更严重
确定性特性的标准 A/B 测试需要大 样本,但它们的扩展是可预测的。对于 LLM 功能,由于输出方差非常高,达到同等统计效能所需的样本量通常要大 3–5 倍。数学是严酷的:将最小可探测效应减半需要四倍的样本量。在 LLM 功能上进行为期两周实验的团队,除非他们针对特定任务测量的 LLM 方差明确重新计算了所需的样本量,否则其效能几乎总是不足的。
延迟混杂因素(latency confound)加剧了这一问题。新的模型版本或重组后的提示词通常会用质量换取速度,反之亦然。如果一个回答质量提升了 20%,却带来了 40% 的延迟增加,导致用户在看到回答前就放弃了,那么这种提升就毫无意义。如果团队在没有护栏指标(如延迟、Token 成本、拒绝率)的情况下优化单一结果指标,通常会发布实际上是负向影响的“改进”。
表面指标会欺骗你
更隐蔽的问题是,团队衡量的结果并不能捕捉到 LLM 实际产生的内容。
考虑点击率、会话时长或点赞反馈——这些是团队在 A/B 测试中常用的标准产品指标。这些指标可能保持不变甚至有所改善,而 LLM 输出的语义质量却在显著下降。一个更简短、听起来更自信的回答即使准确度较低,也可能获得更好的参与度。产生更一致输出的提示词更改如果让用户觉得缺乏变化很无聊,可能会降低评分。
反之亦然,同样危险。研究记录了一种“更好的提示词反而有害”的现象:一个通用的“有用助手”包装提示词使 Llama 3 的特定任务提取准确率降低了 10%,RAG 合规性降低了 13%——同时却提高了 13% 的指令遵循得分。聚合指标会将此 视为功过相抵。按任务类型进行的细分分析揭示了这种损害。如果没有按意图和内容类型细分的语义级评估,你就无法区分改进与权衡。
传统的字符串匹配指标让情况变得更糟。像 BLEU 这样的指标会惩罚语义正确但表述不同的输出。一个说“我们今天将处理你的订单”的模型与一个说“你的订单将立即被处理”的模型得分不同——尽管这些回答是等效的。基于嵌入的语义相似度(输出嵌入上的余弦相似度)是最小可行替代方案,而不是什么科研好奇心。
- https://arxiv.org/html/2504.09723v1
- https://arxiv.org/html/2408.04667v5
- https://arxiv.org/html/2601.19934
- https://www.zenml.io/blog/what-1200-production-deployments-reveal-about-llmops-in-2025
- https://www.braintrust.dev/articles/ab-testing-llm-prompts
- https://www.statsig.com/blog/llm-optimization-online-experimentation
- https://arxiv.org/html/2601.22025v1
- https://arxiv.org/html/2404.08008v1
- https://huggingface.co/blog/g-ronimo/semscore
- https://www.statsig.com/perspectives/shadow-testing-alignment-model-evaluation
- https://www.traceloop.com/blog/the-definitive-guide-to-a-b-testing-llm-models-in-production
- https://langfuse.com/docs/prompt-management/features/a-b-testing
