跳到主要内容

1 篇博文 含有标签「runbooks」

查看所有标签

AI 辅助故障响应:为你的值班 Agent 提供运维手册

· 阅读需 11 分钟
Tian Pan
Software Engineer

在 2025 年,工程组织的运维琐事上升到了 30% —— 这是五年来的首次增长 —— 尽管在 AI 工具上的投入创下了纪录。原因并非 AI 失败了。原因在于团队部署 AI Agent 时,并没有采用像对待人类值班工程师那样严格的标准:没有 Runbook,没有升级路径,没有影响范围(Blast-radius)限制。Agent 可以对日志进行推理,但没有人告诉它它被允许什么。

“能够诊断的 AI”与“能够安全缓解故障的 AI”之间的差距,并不是模型能力问题。这是一个系统工程问题。解决这个问题需要 SRE 团队已经应用在人类操作员身上的同样纪律:结构化的 Runbook、分层权限和强制性的升级点。