1 篇博文含有标签「llm-rollout」

那个按会话分桶并导致 A/B 测试分群漂移的模型发布标志

2026年6月3日 · 阅读需 12 分钟

Software Engineer

事后分析会以一句房间里所有人都希望是真的话开头：新模型在满意度上赢得了 4 %，p 小于 0.01，发布吧。一个月后，一项更冷静的分析发现，这种提升其实是一个混杂因素，模型表现实际上持平或略差，而团队在中间几周一直在争论哪个 prompt 更改“导致”了这一胜利。模型本身并没有导致任何结果。实验衡量错了对象，因为标志服务（flag service）和分析流水线在静默状态下对“分群（cohort）”的定义产生了分歧。

这是 A/B 测试中最昂贵的故障模式之一，因为系统中没有任何东西是损坏的。标志服务工作正常。实验追踪器工作正常。仪表板能正常渲染。统计数据是根据接收到的数据正确计算的。故障存在于三个组件之间的缝隙中，每个组件对身份都有不同的假设，而且除非你主动寻找，否则这个缝隙是不可见的。

关于 Tian Pan