智能体系统就是分布式系统:在遭遇惨痛教训前应用微服务经验
多智能体 AI 系统在生产环境中的失败率令人汗颜。一项分析了七个流行框架、超过 1,600 条执行追踪的地标性研究发现,失败率在 41% 到 87% 之间。卡内基梅隆大学的研究人员指出,在多步基准测试中,领先的智能体系统的任务完成率仅为 30–35%。Gartner 预测,到 2027 年底,40% 的智能体 AI 项目将被取消。
这就是令人不安的事实:这些并不是 AI 问题。它们是工程师在 2010 年至 2018 年间已经解决的分布式系统问题,这些解决方案详尽地记录在博客文章、会议演讲以及 Martin Kleppmann 的《数据密集型应用系统设计》(Designing Data-Intensive Applications)中。今天能够交付可靠智能体系统的团队并没有施展什么魔法——他们应用的是熔断器(circuit breakers)、舱壁隔离(bulkheads)、事件溯源(event sourcing)和幂等键(idempotency keys)。那些失败的团队则将智能体视为一种全新的范式,而实际上,它们只是旧模式的新部署目标。
失败分类似曾相识
MAST 论文对多智能体失败的分类分为三类:系统设计问题(约 42%)、智能体间失配(37%)以及任务验证失败(21%)。剥离掉针对 LLM 的特定表述,你得到的是:糟糕的架构、协调故障和缺失的可观测性。2015 年的分布式系统文献将这些称为强耦合、级联故障和静默数据损坏。
最具破坏性的失败模式是级联幻觉传播(cascading hallucination propagation)。一个智能体产生了一个自信但错误的输出,并将其存储在共享状态中,下游智能体则将该存储值视为经过验证的事实。这正是静默数据损坏在共享可变数据库的微服务中传播的方式——第一个服务写入垃圾数据并返回 200 OK 状态,随后的每个服务都忠实地读取它。
第二种最常见的模式是协调延迟崩溃(coordination latency collapse)。在两个智能体同步协调的情况下,你会看到大约 200 毫秒的开销。如果有八个智能体处于同步链条中,开销将增长到四秒以上。如果你曾见过将单体架构拆分为一打通过同步 HTTP 调用通信的微服务,你就见过这种情况。解决方法是一样的:将协调异步化,并围绕事件传播而非请求/响应链进行设计。
第三种模式——级联超时(cascading timeouts)——对于任何运营过服务网格(service mesh)的人来说都不需要解释。一个缓慢的依赖项阻塞了所有调用者。调用者积压。积压向上传播。所有东西一起垮掉。智能体只是为这些组件取了带有 LLM 风格的名字而已。
