A/B 测试陷阱：为什么标准实验设计在 AI 功能中会失效

2026年5月5日 · 阅读需 10 分钟

Software Engineer

一个团队上线了一个改进的 LLM 提示词。A/B 测试运行了两周。指标上升了 1.2%，p=0.03。他们将其视为胜利并向所有人发布。六个月后，一次客户审计发现，新提示词一直产生细微的错误摘要——这种语义偏移是点击率和会话时长无法察觉的。A/B 测试并没有完全撒谎。它用一种从未针对 LLM 特性设计的评估方法测量了错误的东西。

标准的 A/B 测试是为确定性系统构建的：按钮更改颜色、页面加载变快、推荐算法调整排名。在给定相同输入的情况下，输出是稳定的，方差较小且易于理解，教科书中的样本量计算公式也适用。然而，对于由 LLM 驱动的功能，这些属性都不成立。如果团队不考虑这一点，他们就不是在进行实验——而是在产生带有统计显著性标签的噪声。

三个失效的假设

经典的实验设计基于三个假设，而 LLM 同时违反了这三个假设。

确定性。 在传统的特性测试中，向用户展示变体 B 时，对于每个相同的输入都会产生相同的结果。LLM 并非如此。关于推理非确定性的研究发现，即使在 temperature=0（团队为了获得“可靠”输出而选用的设置）下，在相同的提示词上，约 24% 的 GPT-4o-mini 运行产生的输出与第一次运行不同。这并非舍入误差：推理基础设施中的连续批处理（continuous batching）和前缀缓存（prefix caching）引入了提示词设置无法消除的随机性。你不是在测试一种处理方式；你是在从一个分布中采样。

同方差性。 标准的效能计算（power calculations）假设方差在你处理的输入范围内大致恒定。LLM 的输出方差是异方差的（heteroskedastic）：它随任务难度而变化。简单的查询在不同运行中显示出 5–10% 的输出差异；复杂的推理任务则显示出 40–60% 的差异。基于聚合方差估算的样本量，对于最难的查询（即正确答案最重要的部分）将是完全错误的。

独立性。 A/B 测试单元应该是独立的：一个用户的体验不应影响另一个用户，并且用户的变体分配在交互过程中应保持稳定。对话式 LLM 系统打破了这两点。第一轮中糟糕的回答会影响用户在第二轮中的提问。如果你的分配逻辑在整个会话中不是确定性的，同一个用户可能会体验到两个变体——这违反了 SUTVA（稳定单位处理值假设），从而破坏了你的处理效应评估。

方差问题比你想象的更严重

确定性特性的标准 A/B 测试需要大样本，但它们的扩展是可预测的。对于 LLM 功能，由于输出方差非常高，达到同等统计效能所需的样本量通常要大 3–5 倍。数学是严酷的：将最小可探测效应减半需要四倍的样本量。在 LLM 功能上进行为期两周实验的团队，除非他们针对特定任务测量的 LLM 方差明确重新计算了所需的样本量，否则其效能几乎总是不足的。

延迟混杂因素（latency confound）加剧了这一问题。新的模型版本或重组后的提示词通常会用质量换取速度，反之亦然。如果一个回答质量提升了 20%，却带来了 40% 的延迟增加，导致用户在看到回答前就放弃了，那么这种提升就毫无意义。如果团队在没有护栏指标（如延迟、Token 成本、拒绝率）的情况下优化单一结果指标，通常会发布实际上是负向影响的“改进”。

表面指标会欺骗你

更隐蔽的问题是，团队衡量的结果并不能捕捉到 LLM 实际产生的内容。

考虑点击率、会话时长或点赞反馈——这些是团队在 A/B 测试中常用的标准产品指标。这些指标可能保持不变甚至有所改善，而 LLM 输出的语义质量却在显著下降。一个更简短、听起来更自信的回答即使准确度较低，也可能获得更好的参与度。产生更一致输出的提示词更改如果让用户觉得缺乏变化很无聊，可能会降低评分。

反之亦然，同样危险。研究记录了一种“更好的提示词反而有害”的现象：一个通用的“有用助手”包装提示词使 Llama 3 的特定任务提取准确率降低了 10%，RAG 合规性降低了 13%——同时却提高了 13% 的指令遵循得分。聚合指标会将此视为功过相抵。按任务类型进行的细分分析揭示了这种损害。如果没有按意图和内容类型细分的语义级评估，你就无法区分改进与权衡。

传统的字符串匹配指标让情况变得更糟。像 BLEU 这样的指标会惩罚语义正确但表述不同的输出。一个说“我们今天将处理你的订单”的模型与一个说“你的订单将立即被处理”的模型得分不同——尽管这些回答是等效的。基于嵌入的语义相似度（输出嵌入上的余弦相似度）是最小可行替代方案，而不是什么科研好奇心。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

A/B 测试陷阱：为什么标准实验设计在 AI 功能中会失效

三个失效的假设

方差问题比你想象的更严重

表面指标会欺骗你

Recommended Reading

关于 Tian Pan

三个失效的假设​

方差问题比你想象的更严重​

表面指标会欺骗你​

Recommended Reading

关于 Tian Pan

三个失效的假设

方差问题比你想象的更严重

表面指标会欺骗你