跳到主要内容

为什么 “准确率 92%” 几乎总是一个谎言

· 阅读需 10 分钟
Tian Pan
Software Engineer

你发布了一个 AI 功能。模型在你的留出集(holdout set)上达到了 92% 的准确率。你把这个结果展示给产品 VP、法务团队和客户成功主管。每个人都点头表示认可。功能上线了。

三个月后,一个你没有专门测试过的客户群体正面临 40% 的错误率。法务部门在提问。客户成功团队正在处理升级投诉。产品 VP 想知道为什么没有人预警。

92% 这个数字在技术上是正确的。但在作为决策输入时,它几乎是毫无用处的 —— 因为整体准确率恰恰掩盖了那些最重要的信息。

单一准确率数字隐藏了什么

一个在平衡数据集上达到 92% 准确率的模型有 8% 的错误率。这听起来是可以处理的。但这 8% 的分布并不均匀,整体数字无法告诉你:

  • 哪些错误是有害的,哪些是可恢复的。 用户忽略的错误产品推荐,与冻结合法账户的错误欺诈标记是不一样的。
  • 错误集中在哪里。 如果某个高价值用户群体在你的测试集中占比很小,那么 92% 的总指标可能会掩盖该群体 60% 的错误率。
  • 模型在不确定时会做什么。 有些模型会给出一个自信的错误答案;另一些则会选择弃权或转交。这些行为在生产环境中的表现截然不同。
  • 错误率是否稳定。 一个在历史数据上准确率为 92% 的模型,在没有明显信号的情况下,可能会在新的输入分布上急剧退化。

Apple Card 信用卡算法争议是一个被广泛记录的案例,该模型在汇总指标上表现良好,但系统性地冷落了特定的受众群体。整体数字没问题,但底下的分布却有问题。

驱动真实决策的四维错误分类法

在向非技术利益相关者汇报时,停止展示单一的准确率数字。相反,将模型的输出分为四个桶:

1. 正确 (Correct)。 模型预测正确,且用户从中获得了价值。这是你想要增加的分母。

2. 错误但可恢复 (Wrong-but-recoverable)。 模型犯了错,但下游后果的修复成本很低。错误分类的支持票据在几分钟内就会被重新路由。错误的产品建议会被忽略。这些错误会影响用户体验,但很少会导致法律或财务风险。

3. 错误且有害 (Wrong-and-harmful)。 模型犯了一个产生严重下游后果的错误。导致资金损失的漏掉的欺诈信号。错误的医疗分类。有偏见的信贷决策。这些错误具有不对称的成本 —— 就实际影响而言,一个有害的错误可能超过数百个正确的预测。

4. 弃权 (Abstained)。 模型拒绝预测或将其路由给人工审核员。这通常是一个功能,而不是失败 —— 一个了解自己局限性且校准良好的模型,比一个对所有问题都自信回答的模型能产生更好的结果。单独跟踪弃权率可以告诉你模型实际处理了多少流量。

这种分类法迫使人们进行“92% 准确率”永远无法引发的对话。无法区分可恢复错误和有害错误的利益相关者会做出系统性的错误权衡 —— 他们要么在减少无关紧要的错误上投入过多,要么在修复真正具有破坏性的错误上投入不足。

准确率分布在用户细分中,而不仅仅是测试集中

大多数模型评估都是在整个测试集上进行汇总。这是正确的起点,但也是一个危险的终点。

为你的模型生成最多边缘案例(edge cases)的用户,在历史训练或测试数据中的代表性往往不足。一个针对英语密集型数据进行微调的语言模型,在用户编写混合语言内容时表现会较差。一个针对桌面 Web 会话训练的欺诈检测模型,在后期接入市场的移动端优先用户身上的错误率会更高。

在向利益相关者展示准确率之前,请至少从两个轴进行细分:

  • 对业务重要的用户群 (User cohorts)。 高 LTV 客户、监管市场的用户、历史数据稀疏的新入驻用户。
  • 输入难度。 短输入与长输入、模糊与明确的请求、高置信度与低置信度的模型输出。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates