跳到主要内容

准确率阈值难题:当你的 AI 功能好到无法忽视却又差到无法信任

· 阅读需 11 分钟
Tian Pan
Software Engineer

麦当劳将其 AI 语音点餐系统部署到了 100 多个网点。在测试中,它达到了似乎可行的准确率—— 80% 左右。客户开始发布系统在未经提示的情况下向订单添加九杯甜茶、在冰淇淋上放培根,以及信誓旦旦地听错简单要求的视频。两年内,合作伙伴关系解散,该技术从所有网点移除。实验室的准确率是真实的,但现实世界的数据分布并非实验室所测试的那样。

这就是准确率阈值问题。存在一个区域——大约 70% 到 85% 的准确率——在这个区域内,AI 功能的精确度足以让它看起来有效,但在没有持续人工干预的情况下,其可靠性不足以真正发挥作用。团队之所以发布这个区域的产品,是因为数字看起来足够接近。用户会感到困惑,因为该功能刚好足够好到诱使他们产生依赖,又刚好足够差到在关键时刻失效。

为什么 70–85% 是最糟糕的部署区域

一种朴素的直觉认为,部分准确总比完全不准确好。但研究表明事实并非如此。

2024 年发表在《Nature Human Behaviour》上的一项元分析审查了 106 项关于人类与 AI 协作的实验研究。在占研究 85% 的决策任务中,人类与 AI 团队的表现比两者中较好的一方单独表现还要差,效应量 g = -0.27。令从业者惊讶的发现是:当 AI 表现优于人类时,组合团队的表现(g = -0.54)明显差于人类表现优于 AI 的情况。将准确率为 75% 的 AI 与准确率为 65% 的人类结合,产生的结果比单独使用 AI 还要差,因为人类带来了错误,却没能带来成比例的纠正价值。

同样的动态在校准方面以另一种形式出现。在受控实验中,当 AI 虽然只有 70% 的准确率却表达出 80% 的信心时,69.6% 的用户即使不同意自己的判断,也会采纳 AI 的建议。校准良好的 AI(60% 的信心,70% 的准确率)比基准线提升了 11.9% 的决策质量。而过度自信的版本?仅提升了 7.2% —— 勉强优于随机猜测。关键的失败在于:64.3% 的用户完全无法察觉 AI 的过度自信。

这就是为什么 70–85% 的准确率特别危险。它足够好,可以产生习惯性使用;它又足够差,以至于自信的表达会导致明显的失败。而且,在大规模应用中,用户仅凭交互模式无法区分准确率为 75% 的系统和 95% 的系统。

当你在该区域发布产品时,实际会发生什么

失败模式集中在三种模式:

病毒式失败模式。 当准确率高到可以大规模部署时,明显的错误会波及数百万用户。Google AI Overviews 发布时的错误率约为 10%。这听起来似乎可以接受,直到你意识到“每天数百万次查询中 10% 的错误率”意味着数千万个错误答案被自信地交付,且没有任何不确定信号。看到 AI 建议吃石头来补充营养的用户不会得出“这是一个经过校准、准确率为 90% 的系统”的结论。他们会得出“这个系统坏了”的结论。只有 8% 的用户会仔细核对 AI 的答案——其余 92% 的用户则接受了他们看到的内容。

隐藏劳动力模式。 亚马逊的“Just Walk Out”结账技术被宣传为 AI 驱动的无收银员购物。在内部,大约 70% 的交易需要工作人员观看视频录像进行人工审查。AI 本身并没有提供 70% 的准确率——它将 70% 的工作委托给了隐藏的人类。实际结果是,劳动力成本高于传统结账方式,却冠以暗示相反含义的头条新闻。2024 年,亚马逊悄悄从其杂货店移除了这项技术。

灾难性边缘案例模式。 Klarna 的 AI 客服每月处理 230 万次对话,最初报告的满意度“与人类不相上下”。头条指标未能捕捉到的是:复杂的财务纠纷、需要判断力的计费错误,以及无法转接人工的沮丧客户。总体准确率尚可,但需要细致判断的长尾案例却不行。到 2025 年,Klarna 的 CEO 承认“质量下降”,公司随后调整方向,重新组建了人工客服团队。移除人工备选项的代价直到需要备选项时才显现出来。

自动化偏见陷阱

自动化偏见——即使在 AI 出错时也倾向于遵循其建议——在 70–85% 区域变得更糟,而非更好。对 35 项研究的系统综述发现,对 AI 系统感知到的获益越高,与错误 AI 建议的错误一致性就越高。最有可能从 AI 协助中获益的人——非专业人士、经验较低的员工——也是最容易受到自动化偏见影响的人。

这造成了一个悖论。你在这个区域部署,是因为该功能对需要帮助的用户有价值。而最需要帮助的用户,也是最不可能发现错误的人。这些用户也最有可能在看到足够的失败以正确校准信任之前,就已经围绕 AI 养成了习惯。

UnitedHealthcare 的 nH Predict AI 决定了联邦医疗保险优势计划(Medicare Advantage)患者的住院时长。该系统存在准确率问题:其 90% 以上的拒绝承保决定在申诉中被推翻。当患者发现错误时,有些人已经被提前出院,而这在医学上是不恰当的。在那种环境下,校准错误的后果不是用户的挫败感,而是对患者的伤害和诉讼。

这些案例的共同点是一致的:在实验室中看起来可行的准确率数字,在校准失败被理解之前就达到了规模化部署,以及一个反馈循环,其暴露错误的反馈速度太慢,无法在伤害积累之前纠正行为。

置信度校准 UI 的真正含义

当准确率不完美时,人们的直觉是添加免责声明。“AI 生成的内容。请验证重要信息。” 这行不通。用户会锚定在输出结果上,而不是警告上。2025 年《计算机科学前沿》(Frontiers in Computer Science) 的一项研究发现,不确定性可视化提高了 58% 最初持怀疑态度的用户的信任校准——但前提是这种可视化是情境化的,而非通用的。

真正有效的方法不是将沟通不确定性作为事后补救。它需要架构层面的决策:

分级置信度标签,而非原始概率。 在用户研究中,“可能” / “不确定” / “低置信度” 的表现优于 “73% 置信度”。虚假精度——如 “99.73% 置信度”——比诚实的不确定性更快地破坏信任,因为它暗示了系统实际上并不具备的校准能力。对于大多数用户来说,频率格式(“10 次中有 7 次是正确的”)的表现优于百分比。

渐进式披露,而非预置解释。 Google PAIR 更新后的指南明确指出:“展示解释的最佳时机是响应用户的操作。” 当用户质疑或审查输出时被动呈现的可解释性,比在每个输出前都加上置信度面板更有用。用户会忽略静态的免责声明。他们更愿意与能够响应其行为的不确定性信息互动。

特定领域的准确率,而非聚合分数。 一个 AI 智能体在调度任务上可能有 92% 的准确率,而在财务分析上只有 65%。显示一个综合后的 78% 对用户来说没有任何用处。显示针对每项任务的准确率可以让用户适当地调整其审查行为。Waymo 的方法——实时展示车辆所见内容并发布经同行评审的安全论文——为乘客提供了形成正确预期所需的输入,而不仅仅是安慰性的聚合统计数据。

将人工转接作为一等公民功能,而非逃生舱。 在上述每个案例研究中,人工后备方案要么被移除,要么被视为用户必须费力寻找才能进入的备份。设计一个触发人工介入的置信度阈值——在用户遇到明显的失败之前——可以防止出现“我试过 AI 但它让我失望了”这种导致信任崩塌的时刻。Air Canada 在审理委员会裁定该公司应对其聊天机器人的错误政策建议负责后发现了这一点。该聊天机器人没有升级路径;公司无法阻止错误信息被视为权威信息。

发布/暂缓决策框架

在准确率不完美时何时发布的问题并不是非黑即白的。它取决于两个变量:可逆性任务利害关系

不可逆的决定——拒绝承保、法律文件、会被执行的记录——在部署前需要达到接近人类基准的准确率。错误的后果不是“用户重试”;而是一个在 AI 任务结束后依然存在于现实世界中的决定。在这些领域,80% 的准确率不是优化的起点;它是一个反向指标。

低风险的可逆决定——用户审查的内容草稿、可以忽略的日程建议、由 AI 排序的搜索结果——可以容忍不完美的准确率,因为用户已经处于审查环节中。只要 UI 明确了审查是预期的且容易操作的,AI 即使有 20% 的时间是错误的,也不会产生灾难性后果。

大多数团队遇到的失败模式并不是发布得太早或太晚。而是带着错误的心理模型进行发布:将“可逆审查”工作流当成了“信任并部署”工作流。Klarna 在复杂案例中移除了人工后备方案。Amazon 将隐形的人力劳动宣传为 AI 自主权。McDonald's 在没有测试口音、背景噪音和重叠声音的实际分布情况下,就在 100 个地点进行了部署。在每个案例中,准确率数字都是真实的;但部署情境与评估情境不匹配。

部署情境可能偏离评估情境的三个具体信号:评估数据是人工筛选的,而不是从真实流量中抽样的;人工后备方案需要用户付出努力,而不是自动触发;以及聚合的准确率指标没有按最容易导致明显失败的边缘案例进行拆分。

为信任建立而设计

不完美的准确率本身并不是否定因素。Gmail 的 Smart Compose 始终是不完美的——它是一个建议引擎,而不是自动补全。它通过从保守开始(简短建议,被频繁采纳),并在用户建立接受模式后变得更加复杂,从而逐步赢得了信任。用户是通过行为反馈而不是显式分数来了解系统的置信度的。该功能在准确率不完美的情况下依然可行,因为 UI 设计从未暗示过它是完美的。

Spotify Discover Weekly 只有在较安全、较确定的推荐建立起成功记录后,才会对后续推荐采取经过计算的风险。系统赢得了给你带来惊喜的权利。它不要求前期就获得信任。

共同点是信任建立缓慢但破坏迅速。在一连串正确后的单次明显失败应该引发成比例的信任降低,而不是彻底崩塌——但前提是产品设计一直在让用户为不完美的准确率做准备,而不是用自信的呈现来掩饰它。

70–85% 的准确率区间并不是终点。这是一个需要特定 UI 设计选择、明确的人工路由阈值以及对用户预期进行诚实校准的部署情境。失败不在于在这个区间发布。失败在于像准确率达到 95% 那样去发布。

做得好的团队会从这个问题开始:“为了让用户正确校准他们的信任,这个系统需要看起来是什么样子的?” 而不是 “我们如何让准确率数字看起来足够好以至于可以发布?”

References:Let's stay in touch and Follow me for more thoughts and updates