1 篇博文含有标签「supply-chain-security」

评估集毒丸：当你的基准测试成为后门

2026年4月28日 · 阅读需 13 分钟

Software Engineer

我认识的一个团队花了六个月的时间去追踪一个并不存在的回归 (regression)。每一次发布都通过了评估 (eval)。每一次发布都上线了。但每个季度，AI 服务群组的 NPS 都会下降一个点。最终，一名实习生在对黄金数据集 (gold dataset) 进行例行审计时发现，一名早已离职的合同标注员标注了 11% 的数据项，而这些项在团队一直试图修复的一个特定故障模式上，系统性地表现得更加宽松。评估结果显示模型正在变好。但模型并没有变好。评估结果被一个人的校准漂移悄悄地倾斜了，而没有人监督标注员，因为没有人认为标注员是一个威胁面。

这就是评估集毒丸 (eval-set poison pill)。大多数团队将他们的评估集视为一个值得信赖的产物：标签是由人类评分的，数据来自生产环境，而回归仪表盘是组织在发布时一致同意参考的唯一指标。但标注流水线是一个人类供应链，而人类供应链是可以被操纵的。如果不对评估集的输入应用供应链卫生管理，就将其视为真值 (ground truth)，那么你就是在信任一个你无法辩护其来源 (provenance) 的数字。

关于 Tian Pan