跳到主要内容

AI 可靠性下限:为什么 80% 准确率比没有 AI 还糟糕

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数团队衡量 AI 功能质量时只问一个问题:"它答对的频率有多高?"而更有用的问题其实是:"答错的时候,摧毁信任的速度是否超过答对时积累价值的速度?"这两个问题的答案并不相同——只有后者才能告诉你究竟该不该发布。

存在一个可靠性下限,低于这条线的 AI 功能所造成的伤害,比完全没有该功能还要大。在这条线以下,用户在遭遇足够多的错误后会学会不信任 AI;而这种不信任会泛化——即便 AI 给出了正确答案,他们也会绕开它,最终彻底放弃使用。届时,你发布的不是一个部分有用的产品,而是一个披着功能外衣的转化率与留存率杀手。

这不是假设性的边缘案例。2015 年发表在《实验心理学杂志》上的一项研究发现,当人们看到完全相同的错误时,对算法系统失去信心的速度比对人类顾问更快。一项测量单次 AI 建议错误后信任度变化的受控研究显示,效果量为 η² = 0.141——研究人员将其定性为"具有相当实际意义"。遇到 AI 错误的用户不会重新校准预期,而是会直接放弃该功能。

为什么用户对 AI 的标准更苛刻

"80% 已经相当不错"的直觉之所以失效,是因为它借用了以人类犯错为基准的领域逻辑。2023 年一项研究中,放射科医生被要求说明可接受的错误率:他们认为人类错误可接受 11.3%,AI 错误只能接受 6.8%。AI 必须比人类高出 40% 才能跨越同一门槛——而实际测试的算法错误率为 13%,超过了两个阈值。

这种不对称在认知科学中有个名字:「完美图式」。用户进入 AI 交互时,隐含着一个预设:机器每次都应该正确运作。当人类犯错时,长期积累的社会资本会缓冲冲击。当 AI 犯错时,没有社会资本可言——只有被打破的预期。

其后果是非线性的信任衰减。用户遇到错误的 AI 回答,不会在心里记下"准确率从 80% 降到了 79%",而是更新认知为"这个 AI 会犯错",并将这一判断选择性地套用到所有后续输出上,包括正确的那些。行为研究证实了这一点:即将放弃的可观察信号——频繁覆盖、通过其他工具并行验证、仅将其用于低风险任务——早在用户在调查中表达不满之前就已经出现。

阈值效应:下限在哪里

HCI 研究将初始信任建立阈值定在 70–85% 准确率区间,具体取决于任务类型和后果严重程度。低于这个区间,用户无法建立将该功能整合进工作流所需的基础信任。高于这个区间,大多数用户可以容忍偶发错误并保持参与度。

Baymard 研究所在为 UX 审计打造一款生产级 AI 工具时,给出了一个具体的运营答案:在将任何 AI 生成的检查项纳入产品之前,最低准确率必须达到 95%。他们的逻辑很直接——在 70% 的准确率下,一款呈现十条建议的工具会有三条是错的,而用户无法分辨哪三条有问题。该工具的价值主张因此崩塌,因为它制造了验证工作,而非消除它。

谷歌的 AI Overviews 提供了一个大规模展示低于下限会发生什么的案例。一项独立分析发现,在数千次查询中,错误率约为 10%。由此产生的信任崩塌是可量化的:53% 的消费者现在表示不信任 AI 驱动的搜索结果,41% 的人表示 AI 摘要让搜索比传统结果更令人沮丧。该功能每天向数亿用户提供服务——对于其中相当大一部分人来说,它已经将日常搜索从可靠工具变成了来源核实练习。

对多步骤系统而言,数学也会产生恶性复利。一个每步准确率为 90% 的系统,在 100 步智能体工作流中端到端可靠性趋近于 0%(0.9^100 ≈ 0.000027)。步骤级准确率指标掩盖了产品级可靠性的崩溃。

不同任务,不同下限

并非所有 AI 失误都有相同的权重。"多高的可靠性才够用"这一问题的实际答案取决于四个因素:错误的可逆性、用户的可检测能力、依此行动的后果,以及替代方案的可得性。

根据这些因素对任务类型进行映射的框架:

生成任务(草稿、摘要、初始建议)对错误的容忍度最高,因为用户预期会核查输出。用户在行动前会运用自己的判断,错误在离开系统前就会被发现。当生成内容明确定位为起点而非答案时,75–80% 的准确率下限可能奏效。

加载中…
Let's stay in touch and Follow me for more thoughts and updates