为什么你的偏见评估在 CI 中通过但在部署时失败
公平性审计曾是发布流水线中的一个绿色对勾。合规团队在 3 月签署通过了它。支持工单从 10 月开始涌现——来自一个模型从未被评估过的国家的的一组用户,得到的答案效用远低于其他人。模型本身没有任何改变。审计对模型的判断从未出错。它错在对世界的判断。
这是一个没人愿意大声说出来的失败模式:静态偏差评估只是已经发生漂移的数据流中公平性的一个快照。评估在运行时并没有撒谎。它告诉你的是一个关于不再存在的分布的真实情况。等到支持团队积攒了足够的工单并归纳出模式时,模型对该群体的处理不公已经持续了两个季度,而审计报告已经过时一年了。
修复方案不是做一个更好的静态审计,而是停止将公平性视为发布时检查一次的属性,并开始将其视为一个输入不断变化的系统的持续属性。这种重新定义改变了要构建的内容、其负责人以及发布门禁实际检查的内容。
CI 偏差评估中隐藏的假设
每个在 CI 中运行的公平性评估都带有一个未声明的假设:它所评分的分布是模型在生产环境中将看到的分布的忠实采样。策划的人口统计划分、黄金测试集、基于场景的审计——它们都是快照。在拍摄时,它们是真实的。但在输入组合发生变化的那天,它们便悄无声息地不再真实。
输入组合的变化原因往往与公平性工作无关。市场部门在新的地区发起了活动。移动应用上线了语音输入功能,导致语音查询的份额从 3% 跃升至 30%。一个新的长上下文功能让用户可以粘贴整份文档,导致平均提示词长度增长了一个数量级。免费层级引入非英语用户的速度是付费用户的五倍。模型是一样的,评估是一样的,但模型服务的群体已经变了。
偏差特征随着输入分布而变化。在一个短小、规范的英文文本上校准的模型,当输入的中位数变成一段 4,000 token 的混杂语言对话转录时,它将不再保持校准。在一个策划的审计集上实现了人口统计平衡的模型,在实时组合中不再平衡,因为某个群体的增长速度比评估更新的速度快了 10 倍。仪表板上的公平性数字仍然是绿色,因为仪表板评估的是错误的分布。
这就是“审计通过但部署失败”模式背后的机制。这并不是因为审计造假,而是因为审计是由两样东西决定的——模型和数据——而其中只有一个保持不变。
