单个 agent 运行的 span 树在集群规模下会失效。以下是在运行数百个并发 agent 时真正有效的集群级信号、采样策略和行为指纹技术。
当你的 AI Agent 调用内部 API 时,它呈现的是谁的身份?大多数团队给 Agent 一个宽泛的服务账户令牌就了事了。本文解释为什么这是一个安全隐患,以及生产级 Agent 授权实际上应该是什么样子。
用户在 10 秒后就会放弃沉默的 UI,但现代智能体运行时间通常在 30 到 120 秒之间。这个差距是一个设计空间,目前大多数团队仍在使用加载动画来填充 —— 本文将介绍你应该构建的替代方案。
分布式追踪最初是为每个请求约 10 个 Span 设计的。而单个智能体运行可能会产生数百个 Span,默认的 OpenTelemetry 配置会系统性地漏记工作负载。本文将介绍能够经受住生产环境智能体工作负载考验的 Span 层级、尾部采样策略以及 Payload 处理方式。
LLM 智能体在不知道任务有多深之前就开始提交资源。本文介绍复杂度估算层——分层路由、预算追踪器注入、计划模板缓存和基于 DAG 的分解——它们能防止不可逆的早期错误,使智能体成本可预测。
在消息队列上运行 AI Agent 会打破队列语义中固有的假设。本文将探讨当消费者具有随机性时,幂等性、顺序性和背压机制如何发生变化。
值班工作流中的 AI 副驾驶可以浮现关联信号、起草运行手册操作——但它们引入了传统 SRE 没有受过训练去识别的故障模式。这是一份将 LLM 整合进故障响应而不让故障更难处理的实践指南。
上线一个令人印象深刻的 AI 功能,会永久性地拉高用户对产品中每一个其他功能的预期——包括那些你根本没有动过的功能。本文解析其背后机制、真实案例,以及如何在支持队列被淹没前管理好这笔预期债务。
你上线的每一个 AI 功能都会引入新的基础设施依赖——向量数据库、嵌入模型、评估框架、GPU 推理层。问题不在于依赖本身,而在于没有人真正拥有它们。
你的公司悄悄关停的 AI 功能中,隐藏着你下一次发布时会遇到的失败模式。本文提供了一个取证模板、先行指标目录,以及如何解读被废弃功能留下的证据。
传统的严重程度分类法在概率性 AI 系统中失效了。这是一个用于分类 AI 事故的多维框架——超越了二进制的“故障/正常”,旨在捕捉故障范围、可逆性以及复合型损害。
AI 系统的 On-Call 打破了标准的 SRE 直觉。本文提供了一套实用的分类法、轮值设计方案和培训课程,帮助你在不导致团队职业倦怠或错过真实回归的情况下,运行随机性生产系统。