AI 融入 SRE 循环:哪些有效、哪些失效,以及边界在哪里
· 阅读需 12 分钟
大多数线上故障的失败,并非因为缺乏工具,而是因为值班工程师在最需要的时刻无法快速获得足够的上下文。凌晨三点,工程师被一墙的触发告警惊醒,先花 20 分钟拼凑出到底哪里出了问题,再花 20 分钟判断该用哪份运维手册,等到真正开始执行修复时,故障已经持续了将近一个小时。而实际的修复动作可能只需要 5 分钟。
AI 能够将这个上下文收集窗口从 40 分钟压缩到 2 分钟以内。这才是真正摆在桌面上的价值。但"LLM 帮助值班工程师"并不是一个单一的产品决策,而是一系列决策的叠加,每一层都有其独特的失效模式,而某些失效模式的后果,远比客服聊天机器人幻觉严重得多。
