回退级联:为什么你的 AI 功能需要五种故障模式,而非一种
· 阅读需 11 分钟
大多数 AI 功能发布时只有两种状态:正常工作和彻底挂掉。模型调用成功,功能就有响应;模型调用失败,用户就会看到错误。这相当于在构建 Web 服务时没有负载均衡、没有缓存,且只有一个数据库副本——在出事之前,它在技术上是可行的。
不同之处在于,工程师在 20 世纪 90 年代就学会了数据库弹性模式,并将其深刻内化。 AI 功能的弹性仍处于通过一次次生产事故进行艰难探索的阶段。一家支付处理器在一次时长 4 小时的 AI 停机中损失了 230 万美元。一家物流公司在其路由模型宕机时,错过了 30,000 个包裹的交付窗口。这两起失败都有一个共同的根本原因:当主模型不可用时,没有可以回退的方案。
解决方案并不是追求模型提供商更好的在线率——那是你无法控制的。解决方案是设计一套具有级联回退级别的 AI 功能,每一级都比上一级更简单、更便宜,这样模型失败就只是一个降级事件,而不是灾难性事件。
