跳到主要内容

多模型共识:当单个 LLM 不足以进行最终签核时

· 阅读需 13 分钟
Tian Pan
Software Engineer

你的 AI 功能发布时准确率为 85%。领导层非常兴奋。但随后一项合规审计发现,那 15% 的错误答案集中在特定的监管解读上——而你所使用的供应商家族中的每个模型都以同样的方式犯了错。你调用了一个模型,它失败了。因为你从未将其与其他模型进行对比,你完全没有意识到这种失败是系统性的。

多模型共识架构(Multi-model consensus architecture)是解决这一问题的结构化方案。与其信任单个大语言模型(LLM),不如将请求分发给来自不同供应商家族的多个模型,汇总它们的响应,并根据一致性进行路由。不一致的模式本身就成为了系统中的一等信号,而不仅仅是一个调试产物。

这种方法的每次推理成本要高出 2 到 4 倍。对于大多数用例来说,这显然不值得。但对于特定类别的输出——法律摘要、医疗分诊路由、金融风险标记、安全评估——错误答案的代价远超额外推理的成本,以至于计算逻辑几乎立即发生反转。

通俗易懂的架构解析

多模型共识并非某种奇特的实验室研究模式。其核心机制非常直观:将相同的查询发送给多个模型,比较输出,并根据一致性程度决定后续操作。

最简单的实现方式是多数投票(majority voting)。三个模型给出答案;如果两个或更多模型一致,则接受该共识。但投票仅仅是基础。生产系统会在其之上增加:

分发与汇总:将查询路由到来自不同供应商家族的模型(GPT-4、Claude、Gemini、开源 Llama 变体)。收集响应。使用语义相似度(semantic similarity)而非精确字符串匹配进行比较——用不同措辞表达相同意思的两个响应应被视为一致。

分层优化:在智能体混合(Mixture of Agents)方法中,模型按层组织。第一层生成独立响应;后续层查看前一层的输出并进行优化。使用这种模式的开源集成在标准基准测试中达到了 65.1% 的胜率——高于 GPT-4 在同一基准测试中 57.5% 的得分。协同工作的弱模型表现优于单打独斗的强模型。

推理树审计:与其比较最终答案,不如比较推理路径(reasoning traces)。当模型出现分歧时,检查它们的推理路径在哪里分叉。在关键步骤上的推理逻辑分歧比最终词汇选择的分歧更有参考价值。

基于维度的验证:不只给出一个总体的判断,而是将不同的质量维度分配给不同的验证器。一个模型检查事实准确性;另一个检查合规性;还有一个检查逻辑连贯性。维度层面的分歧能告诉你存在哪种问题,而不仅仅是出了问题。

在生产环境中的实际应用场景

并非所有的 AI 输出都值得使用多模型共识。在错误会产生连锁反应、虚假信心比承认不确定性更危险、以及错误答案会导致法律责任的领域,这种模式才体现其价值。

医疗决策支持:一项针对 360 个案例的临床试验比较了单模型验证与多模型验证,结果发现,工具增强的多模型方法在干净输入上的任务正确率达到了 80%,而单模型基准仅为 64%。在模糊案例中,这种差距会变得更大——这正是你最需要它的时候。临床医生没有时间核实每一条 AI 输出;共识信心信号让他们能够将注意力集中在模型存在分歧的地方。

法律与监管分析:当模型对监管条款的适用性产生分歧时,这种分歧往往就是正确答案。文本本身确实存在歧义。一个自信地对模糊条款进行分类的单一模型,比两个标记出冲突并将其交给律师处理的模型更危险。

高风险变更的代码审查:Mozilla 内部的 Star Chamber 工具同时向多个 LLM 供应商分发安全和架构审查。它将反馈汇总为基于共识的建议,并突出显示模型提出独特担忧或明确相互矛盾的地方。分歧图谱与共识输出同样有用。

金融风险标记:当一个模型将一笔交易标记为低风险,而第二个模型将其标记为高风险时,这种分歧本身就应该升级到人工审核——这并不是因为系统无法决定,而是因为模型输出的模糊性反映了底层风险概况的真实模糊性。

成本核算

朴素的看法是“多模型成本高出 3 倍,所以只有在准确性重要性也高出 3 倍时才有意义”。实际的计算方式更为乐观。

推理成本已大幅下降。一种混合路由策略——将 70% 的流量发送给每百万 token 0.10 美元的模型,将 30% 发送给每百万 token 3 美元的模型——产生的综合成本约为每百万 token 0.97 美元。与纯廉价模型方案相比,你支付了 2 到 4 倍的费用,但对于大多数生产工作负载而言,绝对成本仍然很低。

关于集成扩展的研究表明,性能增益并不随模型数量的增加而单调增长。增加第二个模型产生的准确率提升最大。增加第三个模型的收益递减。超过四个模型后,性能往往会下降——你增加的是噪声和协调开销,而不是准确性。这意味着成本范围是有限的:选择两到三个合适的模型就能获得大部分收益。

盈亏平衡计算应包括错误成本,而不仅仅是推理成本。在医疗分诊中,误导的案例产生的后续成本以数千美元计,并会导致不良后果。在法律文件审查中,遗漏的条款可能导致合同无效或触发法律责任。在这些领域,与它所降低的尾部风险相比,2 到 4 倍的推理溢价几乎可以忽略不计。

对于高业务量、低风险的任务——如客服问答、内容推荐、搜索重排序——这种成本计算通常行不通。你应该构建一个路由层,仅对那些物有所值的查询子集应用共识机制。

没人谈论的部分:相关性错误

这里有一个应该让你对朴素共识保持警惕的结果:当两个模型都给出错误答案时,它们大约有 60% 的时间会达成相同的错误答案。

这并非巧合。大多数大语言模型都是在高度重合的互联网语料库上训练的,具有相似的学习目标和相似的训练后激励。它们共享相同的盲点。一个基于 Transformer 的模型产生的幻觉事实,往往也是另一个基于 Transformer 的模型产生的幻觉事实——因为两者都学习自那些不包含正确答案的相同来源。

这种失效模式被称为共识幻觉:如果询问五个模型一个历史事实,它们可能会自信地对同一个虚构的日期达成一致。聚合增加了共识,但没有增加正确性。多数票产生了一个高置信度的错误答案。

这种相关性比大多数工程师预期的要严重,而且随着模型质量的提高而变得更加严重。更大、更准确的模型具有更多的相关性错误,而不是更少——它们会坍缩到同一个错误答案上,而不是产生多样化的错误。同质化集成(来自同一供应商系列的多个模型)具有最高错误相关性。

对架构的启示:

  • 供应商系列的多样性比单个模型的质量更重要。GPT-4 + Claude + Gemini 产生的相关性错误会比三个 OpenAI 模型更少。
  • 仅靠共识并非验证。对于高风险领域的事实性陈述,你需要外部验证(external grounding)——针对经核实的源进行 RAG、结构化事实核查或人工审查。
  • 幻觉率最高的领域(历史事实、创意生成、无规范的代码)也是共识作为真实性信号最不可靠的领域。

超越投票的路由逻辑

多模型共识中真正的工程工作不在于扇出(fan-out)——那只是几个并行的 API 调用。价值在于决定如何处理结果的路由逻辑。

基于置信度分级的路由:如果模型一致性超过 90%,且每个模型的个人置信度评分都很高,则自动执行。如果一致性在 70–90% 之间,则增加一个验证步骤(检索查询、结构化事实核查)。如果一致性低于 70%,则路由到人工审查。阈值可以根据具体领域进行调整。

将分歧作为升级触发器:不要只是报告模型意见不一——将分歧作为路由信号。将高度分歧的案例路由给专家审查的医疗系统能产生更好的结果,不是因为 AI 更好,而是因为 AI 的不确定性被正确地显现了出来。

维度级分歧路由:当模型在安全分类上达成一致但在事实准确性上存在分歧时,将其路由到事实核查——而不是路由到会对这两个维度都进行评估的人工审核员。精细化的路由在保持安全保障的同时减少了不必要的人工负载。

将分歧作为歧义检测:2025 年的一项研究发现,多智能体辩论在检测真实歧义查询方面达到了 76.7% 的成功率——这些案例中任务本身就不明确,而不只是模型不确定。将歧义查询路由到澄清工作流而不是强制生成答案,可以从源头上减少下游错误。

用于成本控制的 Token 级路由:对于生成任务,你不需要在每个 Token 上都达成多模型共识。研究表明,仅将“路径发散”的 Token(即模型续写将采取不同方向的时刻)通过更强或第二个模型进行路由,而将常规 Token 通过单个模型路由,可以获得大部分准确性提升,而成本仅为全共识推理的 30% 左右。

分歧告诉了你什么

多模型共识中最未被充分利用的属性是:分歧是信息,而不仅仅是噪声。

当模型对医疗诊断意见不一时,分歧往往反映了真实的临床歧义——重叠的症状表现确实支持多种鉴别诊断。在这种情况下,分歧正确地发出了信号:在做出决定之前需要进行额外的测试。

当模型对合同条款的解释产生分歧时,这种分歧通常对应于需要律师解决的真实法律歧义。在这种情况下强制执行共识答案的系统其实是在掩盖真实的问题。

对日常道德困境的研究表明,LLM 的分歧与人类的分歧具有相关性。模型无法达成一致的领域往往也是人类无法达成一致的领域——道德权衡、主观判断,以及正确答案取决于未声明价值的问题。模型分歧并不意味着系统坏了;它通常意味着系统检测到了一个真正困难的问题。

你可以量化这一点。模型输出之间的语义距离(嵌入空间中的余弦距离)为你提供了一个连续的歧义信号。低距离(0–0.2)表示高共识和低歧义。高距离(0.8–1.0)表示强烈分歧和高歧义。根据你所在领域的基准事实(ground truth)凭经验校准路由阈值。

迈向生产环境

迈向生产环境多模型共识的实际路径并非始于重写你的推理层,而是始于对分歧的监测。

从你最重要的查询类型开始,选择两个来自不同供应商家族的模型。记录下它们产生分歧的每一个案例。手动标注一部分分歧样本:正确答案是这两个选项之一吗?是其他答案吗?查询本身是否存在真实的歧义?这种标注为你校准路由阈值提供了地面真值(Ground Truth)。

一旦你校准了阈值,就开始构建路由层。对于高置信度的共识结果,直接自动执行;将低置信度的共识案例交由外部验证步骤处理;将真实的分歧路由到人工审核。

监控每个层级的成本和准确率。你很快就会发现哪些查询类别产生了不成比例的人工审核负载(这表明你的阈值或路由逻辑需要改进),以及哪些类别产生的共识仍然需要人工修正(这表明在这些领域存在相关性错误模式)。

当数据表明其物有所值时——即当第三个模型带来的边际准确率提升超过其边际成本时——再添加它。在大多数领域,第三个模型带来的增益通常低于第二个模型。

诚实的总结

多模型共识并不是解决 LLM 不可靠性的通用方案。相关性错误问题是真实存在的;共识幻觉已有据可查;“群体智慧”的假设并不能完美地迁移到使用相同数据训练的模型上。

多模型共识真正提供的是尾部风险的降低和显式的确定性量化。它为你提供了结构化信号,让你了解 AI 系统在哪些地方有把握,在哪些地方只是在猜测。它使模型的分歧变得可操作,而非被无视。在医疗、法律、金融、安全等高风险、低频决策的特定类别中,在采取行动之前发现真正的歧义,其价值远超其推理成本。

从这种架构中获益最多的团队,并不是那些将共识视为黑盒准确率助推器的团队,而是那些将分歧视为一等输出,并构建路由逻辑以此进行有用操作的团队。

References:Let's stay in touch and Follow me for more thoughts and updates