跳到主要内容

2 篇博文 含有标签「ai-fairness」

查看所有标签

生产环境偏差审计:在用户发现之前捕捉 AI 歧视

· 阅读需 13 分钟
Tian Pan
Software Engineer

我在生产环境中见过的代价最高昂的偏差缺陷(bias bug),是通过一个 Twitter 讨论串发现的,而不是仪表盘。一个小团队发布了一个信用评分助手。他们运行了标准的发布前审计:平衡的训练集、对抗性去偏差(adversarial debiasing),以及留出集(holdout set)上低于 5% 的等同赔率差距(equalized-odds gap)。发布一个月后,一名用户发布了截图,显示其家庭中的女性在财务状况完全相同的情况下,获得的额度始终低于男性。当团队的监控系统反应过来时,监管机构已经开始介入调查。

教训并不是说这个团队懒惰。他们严格执行了文献推荐的审计流程。教训在于,发布前审计衡量的是模型的快照,而当真实用户接触到它时,那个模型早已不复存在。分布发生了偏移。新的人群出现了。提示词模板(prompt-template)的更改引入了措辞伪影(phrasing artifact),并与姓名产生了交互作用。模型升级悄悄地牺牲了校准度(calibration)来换取流畅度。你在 11 月进行的审计,无法保护 5 月在生产环境中运行的模型。

模型路由中的 20% 问题:当成本优化产生二等用户时

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的路由系统完全按照设计运行。80% 的查询流向廉价模型;20% 升级到高性能模型。延迟降低了,成本下降了 60%,领导层也很满意。然后有人按用户细分提取了数据,你发现了问题:非母语英语用户的查询升级率只有母语人士的一半,而他们的满意度评分低了 18 分。路由系统将查询复杂度信号视为中性的,但事实并非如此——它是语言熟练程度的替代指标,而你已经在几个月的时间里,系统性地向特定用户群体提供了更糟糕的产品。

这就是 20% 问题。这不是路由器的 bug。这是任何经过成本优化的路由系统在无人衡量的情况下,直到为时已晚才显现出来的涌现特性。