你在实验中上线了一个模型替换。两周过去了,控制面板只变动了 0.1%,读数显示“无显著差异”。你得出结论,新模型与旧模型基本相同,然后继续进行其他工作。

它们并不相同。你的指标从未敏感到足以区分它们。
这是 AI 功能 A/B 测试中一种悄无声息的失败模式。统计机制完全按照设计运作。随机化很干净。样本量足够大。p-value 是诚实的。然而,实验仍然无法区分一个用户深爱的模型和一个他们仅仅是容忍的模型,因为实验唯一衡量的是他们是否点击了。
AI 的 A/B 测试首先是一个测量问题,其次才是统计问题。大多数团队直接跳到了统计环节。
即使人类评价差异巨大,点击率在不同模型间也几乎持平