AI 事故严重程度分类法：幻觉何时算作 Sev-0？

2026年4月16日 · 阅读需 13 分钟

Software Engineer

一个法律团队的 AI 研究助手伪造了三个案例引用，并将它们混入了法庭文件中。这些引用看起来非常可信 —— 真实的法院、听起来很真实的案例名称、连贯的判决理由。在提交摘要之前，没有人发现它们。这一事件导致律所面临紧急听证会、公开道歉以及律师协会的调查。

那是 Sev-0 还是 Sev-2？答案取决于你使用的框架 —— 而传统的严重程度模型几乎每次都会给你错误的答案。

软件事故严重程度分类是为确定性系统构建的。服务要么有响应，要么没有。数据库查询要么成功，要么抛出错误。失败模式是二进制的，责任可以追溯到某个 commit，而修复方案则是回滚或补丁。AI 系统同时打破了这三个假设，如果组织将传统的严重程度框架应用于 LLM 故障，最终要么是对噪声感到恐慌，要么是将结构性故障视为偶然的异常。

为什么传统的严重程度分类对 AI 系统失效

标准的严重程度级别 —— 通常是 Sev-0 到 Sev-4 或 Sev-5 —— 是围绕可观察、持续的故障状态设计的。Sev-0 是全线宕机。Sev-1 是影响大多数用户的关键性能下降。该模型假设严重程度与范围和持续时间直接相关，且两者都是可衡量的。

LLM 系统从三个方面违反了这一模型。

非确定性瓦解了持续的故障状态。 在 temperature 为 0.7 的情况下，将相同的输入传递给相同的模型，每次调用都会得到不同的输出。一个复现率为 30% 的错误在抽查中看起来像 Sev-3，但在大规模运行下表现得像 Sev-1。传统的事故响应会问：“它还在发生吗？”对于概率系统，这个问题没有稳定的答案。

语义错误通过了验证。 当服务抛出 500 错误时，你的监控会捕获它。当 LLM 产生一个语气坚定、格式完全符合预期的错误答案时，下游的每一项检查都能通过。故障作为有效数据进行传播。在多智能体系统中，研究表明，与单智能体基准相比，独立的智能体流水线会将这些错误放大 17 倍，而中心化协调将放大控制在 4 倍左右。10 步流水线中第 2 步的幻觉不仅会影响第 2 步 —— 它会毒害下游的所有环节。

因果关系是分布式的。 传统的复盘将故障追溯到某个 commit。AI 事故没有单一原因。模型改变了。提示词模板更新了。训练数据分布偏移了。推理 temperature 被调高了。检索语料库过时了。这些因素的任何组合都可以产生相同的观察到的退化，而责怪“模型”就像责怪“网络”一样毫无意义。

多维事故分类框架

解决方案是停止将严重程度视为单一维度，而是开始将其视为四个维度的矩阵。每个维度都是独立可衡量且独立可操作的。

维度 1：范围 —— 单次会话 vs. 群体性

在任何 AI 事故中，首先要回答的问题是故障是在影响单个会话还是相关的群体。

单次会话故障（per-session failure）看起来是随机的。用户 A 得到了一个幻觉答案；用户 B 问同样的问题得到了正确的答案。这是任何概率系统的基准行为 —— 你测量的是分布的尾部，而不是结构性缺陷。

群体性故障（per-cohort failure）在性质上则完全不同。所有调用系统且文档长度超过 8,000 token 的用户都会得到截断的答案。所有通过移动端 SDK 在 iOS 17.4 上运行的用户都会遇到上下文封送（context marshaling）漏洞。所有包含日期范围的查询都会返回微妙的错误结果。群体性故障表明存在结构性问题：这类输入、这个用户群体或这条执行路径在系统层面上是损坏的。

事故响应的意义在于：单次会话故障需要监控和统计基准。群体性故障则需要立即调查并可能需要对功能进行开关控制（feature gating）。影响 0.3% 会话的幻觉可能是正常的噪声；但在特定提示词模式下影响 100% 会话的幻觉，无论原始用户数量多少，都属于 Sev-1。

维度 2：故障类型 —— 事实性 vs. 风格化偏移

并非所有的输出退化都是平等的。AI 事故可以清晰地分为两类，且具有截然不同的紧迫性。

事实性退化（factual degradation）意味着模型正在产生错误的断言。伪造的引用、不正确的统计数据、幻觉产生的产品功能、错误的日期。这些故障可以根据客观事实进行衡量，它们会造成直接伤害，而且这就是大多数人所说的“AI 坏了”的意思。

风格化偏移（stylistic drift）意味着输出在特征上发生了变化，但在正确性上没有变化。回答变得更加冗长。语气从专业转向随意。格式规范发生了变化。回答长度翻倍。这些变化是真实存在的 —— 用户会注意到它们，评估得分会发生变化，A/B 测试会检测到它们 —— 但它们很少单独构成一起事故。

实际意义在于：事实性退化会立即升级。风格化偏移则进入监控积压任务。你需要警惕的是那些被误归类为风格化偏移的事实性退化，因为它们通过了自动化格式检查。一个只验证 JSON 结构而不验证语义正确性的系统，每次都会漏掉这种故障。

维度 3：可见性 —— 面向用户 vs. 内部

将检索精度从 0.94 降低到 0.88 的嵌入偏移 (embedding drift) 是一种真实的退化。它是否构成事故，取决于它是否呈现在用户面前。

仅限内部的故障 —— 检索得分下降、思维链追踪变慢、重排序器置信度降低 —— 对于工程团队的态势感知非常重要。它们是未来面向用户故障的先导指标。但从传统意义上讲，它们并不是事故：没有用户受到伤害，没有信任流失，系统依然在运行。

面向用户的故障则完全改变了权衡逻辑。聊天机器人幻觉出一个退款政策，导致公司随后面临法律压力不得不兑现，这是一个具有真实财务后果的面向用户事故。AI 正在“工作” —— 它返回了响应，解析正确，达到了延迟 SLO —— 但输出造成了损害。

分类问题不仅仅是“系统是否返回了错误？” 而是“系统是否返回了对真实用户造成损害、困惑或信任侵蚀的输出？” 如果是，这就是事故。如果不是，它可能是重要的监控数据，但不是一个需要呼叫 (pager) 的事件。

维度 4：损害状况 —— 可逆 vs. 复合

这是大多数团队重视不足的维度，也是决定 2% 的回归是背景噪音还是 sev-1 事故的关键。

可逆故障在你修复它们时就会停止。回滚提示词、还原模型版本、关闭功能开关 —— 损害就会停止。加拿大航空 (Air Canada) 聊天机器人幻觉出的折扣，虽然航空公司被迫兑现，但这仍是一个可逆事故：令人尴尬、财务损失有限，但影响范围是确定的。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 事故严重程度分类法：幻觉何时算作 Sev-0？

为什么传统的严重程度分类对 AI 系统失效

多维事故分类框架

维度 1：范围 —— 单次会话 vs. 群体性

维度 2：故障类型 —— 事实性 vs. 风格化偏移

维度 3：可见性 —— 面向用户 vs. 内部

维度 4：损害状况 —— 可逆 vs. 复合

Recommended Reading

关于 Tian Pan

为什么传统的严重程度分类对 AI 系统失效​

多维事故分类框架​

维度 1：范围 —— 单次会话 vs. 群体性​

维度 2：故障类型 —— 事实性 vs. 风格化偏移​

维度 3：可见性 —— 面向用户 vs. 内部​

维度 4：损害状况 —— 可逆 vs. 复合​

Recommended Reading

关于 Tian Pan

为什么传统的严重程度分类对 AI 系统失效

多维事故分类框架

维度 1：范围 —— 单次会话 vs. 群体性

维度 2：故障类型 —— 事实性 vs. 风格化偏移

维度 3：可见性 —— 面向用户 vs. 内部

维度 4：损害状况 —— 可逆 vs. 复合