值班工作流中的 AI 副驾驶可以浮现关联信号、起草运行手册操作——但它们引入了传统 SRE 没有受过训练去识别的故障模式。这是一份将 LLM 整合进故障响应而不让故障更难处理的实践指南。
上线一个令人印象深刻的 AI 功能,会永久性地拉高用户对产品中每一个其他功能的预期——包括那些你根本没有动过的功能。本文解析其背后机制、真实案例,以及如何在支持队列被淹没前管理好这笔预期债务。
你上线的每一个 AI 功能都会引入新的基础设施依赖——向量数据库、嵌入模型、评估框架、GPU 推理层。问题不在于依赖本身,而在于没有人真正拥有它们。
你的公司悄悄关停的 AI 功能中,隐藏着你下一次发布时会遇到的失败模式。本文提供了一个取证模板、先行指标目录,以及如何解读被废弃功能留下的证据。
传统的严重程度分类法在概率性 AI 系统中失效了。这是一个用于分类 AI 事故的多维框架——超越了二进制的“故障/正常”,旨在捕捉故障范围、可逆性以及复合型损害。
AI 系统的 On-Call 打破了标准的 SRE 直觉。本文提供了一套实用的分类法、轮值设计方案和培训课程,帮助你在不导致团队职业倦怠或错过真实回归的情况下,运行随机性生产系统。
聚合满意度评分和点赞率会掩盖 AI 自信出错的情形。以下是能真正告诉你模型改进是否有效的行为信号体系。
存在一个可靠性下限,低于该下限的 AI 功能摧毁用户信任的速度,远比它积累价值的速度快。本文介绍如何在发布前找到这条红线。
传统的 RFP 关注功能评分和在线率 SLA,而这些对于随机性输出几乎没有意义。本文探讨了采购团队在面对 AI 时所缺失的评估驱动考核、合同条款以及供应商透明度信号。
DSPy 及其 MIPRO 优化器通过声明式签名和贝叶斯搜索取代了手动提示词工程 —— 在复杂任务中生成的提示词效果比手写提示词提升 20–40%。本文将介绍该系统的工作原理以及何时值得投入这些开销。
如何将利特尔法则、准入控制、隔板模式和令牌桶背压应用于 LLM 调用图 —— 以及为什么幼稚的重试逻辑会将供应商的瞬时波动演变成系统停机。
安全过滤器和公平性检查是不同的问题,需要不同的工程响应。针对性别、种族和语言群体的输出质量差异不会在你的护栏机制中体现 —— 这里有一套能在发布前捕捉这些差异的方法论。