多智能体 LLM 系统为何失败(以及如何构建不失败的系统)
大多数在生产环境中部署的多智能体 LLM 系统,在几周内就会失败 — 失败并非源于基础设施中断或模型退化,而是因为从一开始就存在的协调问题。对七个开源框架的 1,642 条执行轨迹进行全面分析后发现,在标准基准测试中,其故障率在 41% 到 86.7% 之间。这不是模型质量问题,而是系统工程问题。
令人不安的发现是:约 79% 的故障可追溯到规范和协调问题,而非计算限制或模型能力。即使你换一个更好的模型,你的多智能体管道仍然会以同样的方式崩溃。要理解其原因,你需要仔细审视故障分类。
