复合 AI 系统:为什么你的最佳架构需要三个模型,而不是一个
人们的本能总是去选择最大的模型。GPT-4o、Claude Opus、Gemini Ultra——选一个前沿模型,把问题丢给它,然后寄希望于强大的能力来弥补架构上的懒惰。这在演示中行得通,但在生产环境中会失败。
2025 和 2026 年,那些交付最可靠 AI 系统的团队并没有使用单一模型。他们将三个、四个甚至五个专业化模型组合成流水线,每个组件只做好一件事。分类器负责路由,生成器负责产出,验证器负责检查。最终得到的系统不仅优于任何单一模型,而且成本只是"万事皆用前沿模型"方案的一小部分。
这并非理论推演。AlphaCode 2 将 LLM 与采样引擎和评分模型组合在一起,在竞赛编程中达到了第 85 百分位——这是任何单一模型都无法单独实现的性能。Medprompt 将 GPT-4 与最近邻搜索和集成学习相结合,在医学考试中超过 GPT-4 自身基线 9%。模式是一样的:系统比其中最聪明的组件更聪明。
单一模型的天花板
每个生产团队最终都会撞上同一面墙。你已经优化了提示词,添加了少样本示例,尝试了思维链推理。模型在 15% 的输入上仍然失败——而这些失败恰恰是最重要的,因为它们是用户实际遇到的边界情况。
问题在于,单一模型必须同时擅长理解意图、生成输出和判断自身是否出错。这些从根本上是不同的认知任务。让一个模型处理所有三项任务,就像让一个工程师在同一个需求上同时担任架构师、开发者和 QA 负责人。在小问题上可以行得通,但在规模化时就会崩溃。
复合 AI 系统通过分解问题来解决这个难题。不再是一个模型勉强做好所有事情,而是三个模型各自将一件事做到极致。分类器不需要生成——它只需要正确路由。生成器不需要自我评估——它只需要为特定输入类型产出高质量输出。验证器不需要创造——它只需要发现错误。
这种分解产生了可靠性倍增效应。如果你的生成器准确率为 85%,验证器能捕获 80% 的错误,那么你的流水线准确率将跃升至 97%。两个中等水平的组件组合起来,比一个单独的优秀组件更好。
分类器-生成器-验证器模式
生产环境中最常见的复合架构遵循一个三阶段模式,它反映了工程团队实际的工作方式。
阶段一:分类和路由。 一个小型、快速的模型(通常是微调过的 BERT 变体或轻量级 LLM,如 Haiku)检查传入的请求并决定应该发送到哪里。这是一个简单的 FAQ 查询、复杂的推理任务,还是创意生成请求?分类器不需要聪明——它需要快速、低成本且在分类上准确。UC Berkeley 和 Canva 的研究表明,智能路由可以在保持前沿模型 95% 性能的同时实现 85% 的成本降低。
阶段二:专业化生成。 根据分类器的输出,请求被路由到专业化的处理器。简单查询发送给小模型甚至缓存响应。复杂推理发送给前沿模型。领域特定任务发送给微调过的专家模型。每个处理器都针对其特定任务类型进行了优化,这意味着更好的提示词、更好的少样本示例和更好的输出质量,优于一刀切的方法。
阶段三:验证。 一个独立的模型(或一组规则加模型)评估生成器的输出。响应是否回答了问题?是否基于所提供的上下文?是否符合所需的格式?验证器可以是完全不同的模型——通常是更便宜的模型,配以聚焦的评估提示词。如果验证失败,系统可以用不同的生成器重试、升级到更强大的模型,或返回一个优雅的失败。
这种模式之所以强大,是因为每个阶段独立失败和独立恢复。误分类将查询发送到次优的生成器,但验证器会捕获低质量的输出。生成器的幻觉在到达用户之前就会被标记。系统是优雅降级,而非灾难性失败。
路由决策矩阵
复合系统中最难的工程问题不是构建组件——而是决定何时路由到哪里。路由错误意味着你在为简单查询支付前沿模型的价格,同时将复杂查询发送给无法处理它们的模型。
有效的路由同时考虑三个维度:
复杂性。 这个查询需要多少推理步骤?单跳事实查询不需要 400B 参数模型的思维链推理。具有模糊约束的多步推理则需要。分类器需要估计认知复杂性,而不仅仅是主题分类。
风险。 错误答案的代价是什么?产品推荐可以容忍一些不准确。药物剂量计算则不行。高风险查询应该路由到更强大的模型并进行验证,即使查询本身很简单。
延迟预算。 交互式聊天需要亚秒级响应。批处理可以承受 30 秒的生成周期。根据用户是否在等待还是后台作业在运行,同一查询可能路由到不同的模型。
路由分类器本身应该是系统中最便宜的组件。本地运行的微调 distilBERT 只增加不到 10ms 的延迟。如果你的路由器是一个 LLM 调用,你已经输了——你在开始处理实际任务之前就已经在支付推理成本。
协调开销:沉默的杀手
大多数复合系统设计在这里失败:协调成本随组件数量非线性增长。
两个组件需要一个集成点。三个组件需要三个。五个组件需要十个。每个集成点都是一个潜在的故障模式、一个延迟增量和一个调试面。组件之间的交接延迟在每次交互中从 100ms 到 500ms 不等。需要十次交接的工作流会增加 1-5 秒的纯协调开销。
研究对此的结论是明确的。单组件系统实现 99.5% 的成功率。等效的多组件实现由于协调故障就只能观察到 97% 的成功率——这还没算上各组件自身的错误。2.5% 的差距听起来很小,但意味着每千次请求多出 25 次失败。
协调税遵循一个经验法 则:如果交接增加的端到端延迟超过 40%,你的架构就太复杂了。 你已经越过了协调开销消耗的价值超过专业化创造的价值的临界点。
这意味着复合系统有一个最佳区间。两到四个组件通常是最优的。超过这个数量,你在与协调开销的斗争中消耗的精力就超过了从专业化中获得的收益。分类器-生成器-验证器三元组之所以有效,正是因为它是捕获三种不同认知任务(理解、生产、评估)的最小分解,而不引入不必要的协调。
复合系统失败的场景
并非每个问题都能从分解中受益。复合系统在以下几种特定场景中表现不如一个好的单一模型。
低流量应用。 如果你每天处理的请求少于 500 个,维护路由分类器、多个模型部署和集成测试的工程开销超过了成本节省。直接使用你能负担得起的最好模型就行了。
均匀的查询分布。 如果 95% 的查询类型和复杂性相同,路由只会增加延迟而不增加价值。一个提示词良好的单一模型加上验证步骤(两个组件,而不是三个)才是正确的架构。
快速迭代阶段。 在早期产品开发中,当你对用户查询的理解每周都在变化时,硬编码路由逻辑产生技术债务的速度比它创造价值的速度更快。从单一模型开始,收集分布数据,在你理解流量模式后再引入路由。
高度创意任务。 需要持续连贯生成的任务——长篇写作、复杂代码架构、细致入微的对话——在分解后往往表现更差。分类器-生成器-验证器模式引入 的接缝会打断连贯性。一个在长篇生成中保持上下文的单一模型通常优于将任务碎片化的流水线。
诚实的基准:具有良好工具增强的单智能体系统在 80% 的场景中比多组件替代方案表现更好。复合架构在剩余 20% 中赢得了其复杂性——但这 20% 往往是最高商业价值集中的地方。
构建在生产环境中存活的复合系统
如果你已经决定复合架构适合你的场景,四个工程实践决定了它能否经受住真实流量的考验。
独立部署设计。 每个组件都应该能够独立部署、测试和回滚。如果升级你的生成器需要重新训练你的分类器,你的架构耦合就是错误的。像版本化 API 一样版本化组件间的契约(输入/输出模式)。
先构建单体。 从一个处理所有事情的单一模型开始。大量埋点——记录查询类型、复杂性估计、故障模式和延迟分解。在你有了一个月的生产数据之后,路由边界就会变得显而易见。过早分解是最常见的复合系统失败模式,因为你最终会沿着错误的边界拆分。
使路由可观测。 每个路由决策都应该记录分类器的置信度分数、选中的处理器和下游结果。当质量下降时,你需要区分路由错误(正确的模型,错误的提示词)、分类错误(错误的模型)和能力错误(正确的模型,确实困难的查询)。没有这种可观测性,调试复合系统几乎是不可能的。
设定复杂性预算。 在添加新组件之前,计算它提供的边 际价值与它引入的协调成本。如果一个新的验证步骤能多捕获 3% 的错误但增加 400ms 延迟和一个新的故障模式,它可能不值得。最好的复合系统严格保持最小化——不是因为极简主义优雅,而是因为每个组件都是维护负担和故障面。
新兴模式:自适应组合
2026 年最先进的复合系统不是静态流水线——它们是自适应的。系统本身根据查询决定启用多少组件。
简单查询可能完全跳过验证:分类、生成、返回。中等复杂度的查询添加验证。高风险查询添加带有自一致性采样(多次生成结果进行一致性比较)的生成、由独立模型进行的验证,以及在置信度较低时的人工介入升级。
这种自适应方法捕获了复合系统的关键洞察——不同的任务需要不同的架构——并递归地应用它。系统不仅仅在模型之间路由;它在流水线配置之间路由。简单查询走快速、低成本的路径。困难查询走彻底、高成本的路径。流水线本身变成了你优化的参数。
DSPy 和类似框架正在进一步推动这一趋势,自动调优流水线配置——提示词指令、少样本示例、组件选择——以最大化目标指标上的端到端性能。流水线变成了一个可微分程序,即使各个组件(搜索引擎、代码解释器、外部 API)是不可微分的。
三模型最低配置
如果你从这篇文章中只记住 一件事,那就是:最小可行的复合系统有三个组件,它们对应三种不同的认知功能。
一个模型负责理解。一个模型负责生产。一个模型负责评估。
这种分解之所以在生产环境中始终优于单模型方案,是因为它反映了每个其他领域中可靠系统的工作方式。代码审查的存在,是因为编写代码的人是判断其正确性的最差人选。QA 的存在,是因为构建和测试需要不同的思维方式。分类器-生成器-验证器模式是同一原则在 AI 中的应用。
前沿模型军备竞赛将继续。模型会变得更大、更强。但在生产环境中交付最可靠、最具成本效益的 AI 的系统,将继续是那些将较小的专家组合成整体大于部分之和的架构的系统。最好的模型是三个模型。
- https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/
- https://www.databricks.com/blog/generalists-specialists-evolution-ai-systems-toward-compound-ai
- https://arxiv.org/html/2406.00584v1
- https://eugeneyan.com/writing/llm-patterns/
- https://www.truefoundry.com/blog/multi-model-routing
- https://www.getmaxim.ai/articles/multi-agent-system-reliability-failure-patterns-root-causes-and-production-validation-strategies/
