跳到主要内容

1% 错误率,1000 万用户:规模化 AI 故障的数学逻辑

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个部署在医疗转录服务中的大型语言模型达到了 99% 的准确率。团队满怀信心地上线了。六个月后,一项研究发现,其转录样本中有 1% 包含原始音频中根本不存在的捏造短语——虚构的药物名称、不存在的手术操作,甚至偶尔在句子中间插入暴力或令人不安的内容。有 30,000 名医疗专业人员在使用该系统,这 1% 意味着每月数万条受污染的记录,其中一些已产生患者安全后果。

准确率数字从未改变。问题一直存在。团队只是没有做规模化的数学推算。

没有人去做的算术

一旦看清楚,这个失败模式几乎令人尴尬地简单。对于 1000 万用户,1% 的错误率意味着每天有 10 万次糟糕的结果——大约每分钟 70 次,全天候持续。对于每小时 1000 万次请求(这对于大型消费者功能来说并不算多),在中午之前你就已经超过了 100 万次错误响应。

更糟糕的是,大多数团队即使尝试去做,也会错误地运用这个数学。他们在精心策划的测试集上评估模型,看到 99% 的准确率,就将其解读为"我们将有 1% 的时间出错"。但那个测试集是为了覆盖率而策划的,并不是为了实际生产流量的分布。研究一致发现,AI 系统在部署中的表现比离线基准差 20-40%,因为生产查询包含了没有任何基准预期到的长尾边缘案例。

对于智能体系统,复合效应使情况更为严峻。一个五步自动化工作流,每步可靠性为 95%,整体成功完成的概率只有 77%(0.95 的五次方)。十步流水线,每步 99% 的可靠性,仍有约 10% 的失败率。正是这个算术解释了为什么生产智能体系统即使在每个单独组件测试良好的情况下,仍然感觉不可靠。

实际含义:当你看到一个准确率数字时,立即问这个准确率适用于多大的量。每天 1 万用户的 99% 准确率功能,意味着每天 100 次糟糕体验。同样的功能在 1000 万用户规模下,则是每天 10 万次。

为什么准确率是错误的起点指标

准确率回答的是"模型是否答对了?"它对模型是否在所有条件、用户群体和时间跨度上持续答对只字不提——而这才是生产中真正重要的问题。

区分这些关切的一个有用方式:

准确率是一个快照。它可能被这样的模型所蒙蔽:该模型对多数群体 100% 正确,但对少数群体系统性出错,产生良好的平均数字,同时辜负了最需要它的人。

可靠性是准确率在变化下是否保持稳定:不同的输入分布、负载条件、提示边缘案例、并发用户和模型更新。生产数据显示,单次运行的准确率可能掩盖持续运行中高达 75% 的可靠性下降——模型在正常条件下表现良好,但在只有在规模下才会出现的特定失败模式下表现灾难性。

校准度是模型的置信度是否与其实际准确率相匹配。一个校准良好的模型知道自己何时不确定,并能发出人工审核信号。一个产生自信错误答案的失校准模型是规模下最危险的失败模式,因为用户和下游系统将高置信度的输出视为真相。

规模下的重要性排序大致为:校准度第一,可靠性第二,准确率第三。一个准确但失校准的模型将在规模下造成伤害,因为它在没有寻求帮助的情况下采取不可逆的错误行动。一个准确率较低但校准良好的模型则能在糟糕结果复合之前实现干预。

这对产品设计有重要影响:问题不仅仅是"我们的准确率是多少?"而是"当我们出错时,我们知道我们出错了吗?我们的系统对此做了什么?"

设置真正反映 AI 行为的 SLO

传统服务等级目标是为确定性系统设计的。正常运行时间、第 95 百分位延迟、错误率——这些衡量的是系统是否在响应,而不是它是否正确。对于 AI 功能,一个服务可以在所有传统指标上完全"正常运行",同时在质量上悄然下降。这个差距正是大多数 AI 生产事故藏身之处。

一个 AI SLO 至少需要四个层次:

基础设施 SLO(传统):P95 和 P99 的请求延迟、HTTP 错误率、可用性。这些仍然必要。

LLM 特定运营 SLO:首 token 时间(TTFT)作为独立于端到端延迟的指标,因为它们驱动不同的用户体验;高吞吐量流水线的 token 吞吐量;KV 缓存利用率,持续 15 分钟超过 90% 时触发硬警报,因为缓存饱和会造成延迟悬崖而非渐进降级。

质量 SLO:这是大多数团队跳过的部分。幻觉率、拒绝率、输出格式失败率——通过在线评估持续对实时流量运行测量,而非只针对基准输出。这需要构建或采用一个对生产输出(而非基准输出)进行采样和评分的评估层。Gartner 估计,到 2028 年,60% 的软件团队将使用专用 AI 可观测性平台;大多数等待的团队正在以艰难的方式发现他们需要这些。

业务结果 SLO:升级率(无法获得有用答案而放弃或寻求帮助的用户)、编辑率(大幅重写 AI 输出的用户)、智能体工作流中的任务完成率。这些比其他指标滞后数小时或数天,但是模型是否胜任其工作的终极信号。

生产团队已校准的具体警报阈值,用于在用户影响之前捕获事故:

  • 错误率持续 5 分钟超过 1% → 呼叫
  • P95 延迟持续 10 分钟超过 3 秒 → 呼叫
  • P99 与 P50 延迟比值持续 15 分钟超过 3 倍 → 警告(尾部扩展是队列饱和的早期信号)
  • KV 缓存利用率持续 15 分钟超过 90% → 呼叫
  • 在线评估质量分数较基线下降超过 10% → 呼叫

LLM 延迟尾部的行为与传统软件有一个重要区别:P99 可能爆炸,而 P50 保持稳定。在传统服务中,延迟峰值通常会提升所有百分位数。在 LLM 系统中,你可能遇到中位数请求按时完成,而最慢的 1% 在无限加深的队列中等待。这使得 P99 专项警报成为必须——单靠 P95 会错过尾部。

当模型"足够好"但每月仍有数百万次错误时该怎么办

这是团队避免明确讨论的产品决策,而回避的代价是高昂的。没有普遍答案,但有一个框架。

以下情况下"足够好"是真正可以接受的:

  • 错误是低风险、可逆转、用户可检测到的。一个误归属了一条陈述的会议摘要是个烦恼;用户会注意到并纠正它。
  • 错误是随机分布的,并不集中在系统性伤害某一群体的特定失败模式上。
  • 使用案例涉及的是辅助人类,而非替代判断。用户理解他们是在审阅 AI 辅助的输出,而不是接收权威答案。
  • 错误答案的代价低于为每个响应添加人工验证步骤的摩擦成本。

以下情况下"足够好"是不可接受的:

  • 行动是不可逆的。智能体任务——发送电子邮件、修改记录、对外部服务进行 API 调用——在智能体执行后无法召回。每天 10 万次错误的智能体行动就是 10 万起需要人工补救的事故。
  • 那 1% 的错误答案并非随机分布。它们集中在单一失败模式上:对某类输入始终出错,对某一人口群体系统性有偏,始终在用户最关心的查询上失败。
  • 模型是自信地出错的。用户遵循了一个糟糕的建议,恰恰因为语气是权威的。失校准将准确率问题转化为信任问题。
  • 领域风险是不对称的。医疗、法律和金融应用有尾部结果,完全改变了计算方式。2000 次中的 20 次错误答案听起来像 99% 准确率;如果那 20 条建议建议了有害的治疗方案,该产品就有患者安全问题,而不是评估问题。

当"足够好"处于灰色地带时的实用方法:衡量你的错误分布,而不仅仅是错误率。错误均匀随机分布的 1% 错误率,与每个错误答案都涉及相同失败模式的 1% 错误率,是截然不同的问题。随机错误可以通过 UI 披露来管理;系统性错误需要模型干预。

规模下真正有效的缓解措施

一旦接受某种程度的错误是生产现实,问题就转变为遏制。

将错误预算应用于 AI 质量:借鉴 SRE 概念。定义月度质量预算——比如 2% 的错误率预算。每个可能消耗质量预算的部署决策都需要明确的权衡。这迫使关于质量影响的对话发生,否则这些对话永远不会发生。

置信度门控升级:将低置信度输出路由到人工审核,而非直接交付。这只有在模型校准良好时才有效;如果它过于自信,升级门永远不会触发。在依赖它之前,请明确测试校准度。

质量降级的熔断器:定义一个质量阈值,低于该阈值时功能降级为基于规则的回退,而不是继续交付糟糕的 AI 响应。这需要将 AI 质量作为一等系统状态来处理,能够触发运营响应,而不仅仅是仪表盘中的指标。

带质量门控的分阶段推出:将每次提示词更改、模型版本更新或工具规范修改视为必须在影子模式下通过质量门控才能到达全量生产流量的部署。对生产事故的研究一致指向未经测试的提示词更新是突发质量下降的主要来源——为改善对话流程而添加的三个词的更改就足以使格式失败率激增。

将部署与发布分离:使用功能标志控制哪些用户看到新模型或提示词版本,独立于代码部署。这使得 AI 层面的回滚无需代码回滚,并且能够在监控质量的同时逐步增加曝光。

不起作用的模式:上线模型并被动监控它。等到用户投诉浮现时,糟糕结果的分布已经发生了。在规模下,唯一可行的方法是带自动触发器的持续质量监控——而不是等着人类盯着仪表盘寻找异常。

在 AI 系统中构建质量可见性

规模下 AI 的监控栈有一个大多数团队完全跳过的层次:持续在线评估。你需要某种机制,近实时地对生产请求样本按质量标准进行评分,而不仅仅是在离线基准上。

实践中这需要:

  • 一个同时捕获高频正常案例和低频边缘案例的采样策略。均匀随机采样低估了尾部;按查询类型或用户群体的分层采样能在失败最关键的地方提供覆盖。
  • 不需要对每个样本进行人工审核的自动评分——用 LLM 作为评判者评估幻觉和连贯性等质量维度,用 Schema 验证器评估格式正确性,用用户编辑和升级等基于结果的信号评估任务成功。
  • 质量信号与基础设施指标之间的关联。当 TTFT 激增时,质量是否也在下降?当错误预算耗尽时,是哪些查询类型在驱动它?答案决定了修复是基础设施问题还是模型问题。

四层可观测性模型——基础设施、LLM 运营、质量和业务结果——让你能看到模型是否在运行、是否够快、是否正确,以及是否在创造价值。大多数 AI 团队拥有第一层和部分第二层。极少数团队将第三层和第四层配置了警报和自动响应。这个差距正是每月数百万次糟糕结果在用户研究或新闻报道将其曝光之前无人察觉的地方。

在规模下,模型是否足够好永远不只是一个准确率问题。这是一个系统问题:你是否知道它何时失败、多久失败一次、以何种模式失败,以及失败时会发生什么?


准确率是生产 AI 的必要条件,但不是充分条件。在 1000 万用户规模下,问题不是你是否能达到 99% 的准确率——而是你是否设计了一个系统,能在模型出错的那每天 10 万次交互中正确行事。

References:Let's stay in touch and Follow me for more thoughts and updates