1 篇博文含有标签「故障」

一亿美元的遥测错误：OpenAI 的故障教会我们系统设计的知识

2024年12月15日 · 阅读需 3 分钟

在 2024 年 12 月 11 日，OpenAI 发生了一次灾难性的故障，使 ChatGPT、他们的 API 和 Sora 中断了超过四个小时。虽然故障发生在每家公司身上，但这次故障特别引人注目，因为它揭示了现代系统设计的一个关键教训：有时我们添加的工具以防止故障，反而成为故障的根源。

有趣的是：这次故障并不是由于黑客攻击、部署失败，甚至不是他们的 AI 模型中的错误引起的。相反，它是由于一个旨在提高可靠性的工具引起的。OpenAI 正在添加更好的监控以防止故障时，意外地造成了他们有史以来最大的故障之一。

这就像雇佣一个保安，结果他把所有人都锁在了楼外。

事件的经过如下：

但最有趣的部分不是故障本身，而是多个保障系统同时失败：

遥测服务在测试中工作得很好。问题只在部署到数千个节点的集群时出现。这突显了现代系统设计中的一个基本挑战：一些问题只在规模上出现。

OpenAI 的 DNS 缓存，旨在提高可靠性，实际上通过掩盖问题使情况变得更糟，直到为时已晚。他们的 Kubernetes 控制面板，旨在管理集群健康，成为了单点故障。

最令人震惊的部分？工程师无法修复问题，因为他们需要正常工作的系统来修复损坏的系统。这就像需要一把梯子才能够到你需要的梯子。

OpenAI 的响应计划揭示了系统设计的未来走向：

即使你不是在 OpenAI 的规模下运营，这些教训依然适用：

可靠系统的未来并不是防止所有故障，而是确保我们能够快速而优雅地从故障中恢复。

记住：最危险的问题不是我们能预见到的，而是那些从我们构建的保障系统中突然冒出来的。