跳到主要内容

2 篇博文 含有标签「incident-response」

查看所有标签

AI 辅助故障响应:为你的值班 Agent 提供运维手册

· 阅读需 11 分钟
Tian Pan
Software Engineer

在 2025 年,工程组织的运维琐事上升到了 30% —— 这是五年来的首次增长 —— 尽管在 AI 工具上的投入创下了纪录。原因并非 AI 失败了。原因在于团队部署 AI Agent 时,并没有采用像对待人类值班工程师那样严格的标准:没有 Runbook,没有升级路径,没有影响范围(Blast-radius)限制。Agent 可以对日志进行推理,但没有人告诉它它被允许什么。

“能够诊断的 AI”与“能够安全缓解故障的 AI”之间的差距,并不是模型能力问题。这是一个系统工程问题。解决这个问题需要 SRE 团队已经应用在人类操作员身上的同样纪律:结构化的 Runbook、分层权限和强制性的升级点。

值班负担的转移:AI 功能如何打破你的事故响应手册

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的监控仪表盘一片绿色。延迟正常,错误率持平。而你的 AI 功能在过去六个小时里一直在捏造客户账号信息。

这就是当前在交付 AI 功能的公司中,值班工程师面临的新常态。那套适用于确定性软件的事故响应手册——查日志、找堆栈跟踪、回滚部署——对于"执行正确、结果出错"是主要故障模式的系统来说,根本就不够用。根据 2025 年的行业报告,五年来运营性繁琐工作首次从 25% 上升至 30%,即使各组织已投入数百万美元购置 AI 工具。工具越来越聪明,事故却越来越奇怪。