一亿美元的遥测错误:OpenAI 的故障教会我们系统设计的知识
· 阅读需 5 分钟
在 2024 年 12 月 11 日,OpenAI 发生了一次灾难性的故障,使 ChatGPT、他们的 API 和 Sora 中断了超过四个小时。虽然故障发生在每家公司身上,但这次故障特别引人注目,因为它揭示了现代系统设计的一个关键教训:有时我们添加的工具以防止故障,反而成为故障的根源。
十亿美元的讽刺
有趣的是:这次故障并不是由于黑客攻击、部署失败,甚至不是他们的 AI 模型中的错误引起的。相反,它是由于一个旨在提高可靠性的工具引起的。OpenAI 正在添加更好的监控以防止故障时,意外地造成了他们有史以来最大的故障之一。
这就像雇佣一个保安,结果他把所有人都锁在了楼外。
故障滚出的雪球
事件的经过如下:
- OpenAI 部署了一个新的遥测服务,以更好地监控他们的系统
- 该服务用 API 请求淹没了他们的 Kubernetes 控制面板