当你的智能体意见不一致时:多智能体系统中的共识与仲裁
多智能体系统(Multi-agent systems)是基于一个承诺而诞生的:多个并行的专业化智能体协同工作,产生的结果会优于任何单个智能体。但这个承诺隐藏了一个前提——当智能体给出不同答案时,你知道如何调解它们。大多数团队在发现自己无法调解时,往往为时已晚。
天真的做法是取输出的平均值,或者选择多数票答案,然后继续。在实践中,如果所有智能体共享相同的训练分布,多智能体系统会通过多数表决放大它们的共同错误,而不是抵消错误。一个总是听从最有信心智能体的系统,会盲目跟随那个最过度自信的智能体。而一个将所有分歧都交给 LLM 裁判(LLM judge)处理的系统,会继承该裁判的 12 种已被记录的偏差类型。仲裁问题比看起来要难,如果处理不当,你可能会在一周内遇到四次生产事故。
多智能体分歧的分类 (The Taxonomy of Multi-Agent Disagreement)
在寻求解决方案之前,对你正在面对的分歧类型进行分类是有帮助的。
风格分歧 (Stylistic disagreement):智能体在实质内容上达成一致,但在措辞、侧重点或格式上存在差异。这种分歧可以安全地合成——选择其中一个,或进行合并。不需要进行判断决策。
推理分歧 (Reasoning disagreement):智能体通过不同的路径得出不同的结论。输出在语义上是截然不同的,而不仅仅是风格上的。这需要仲裁。
高置信度分歧 (High-confidence disagreement):多个智能体各自对互斥的答案保持高度自信。这是一个诊断性案例——它表明你遇到了一个真正模糊的领域,在这个领域中人类推理者也会产生分歧。在这里合成虚假的共识会主动损害用户。
对抗性分歧 (Adversarial disagreement):一个或多个智能体已被操纵(通过提示词注入、毒化上下文或对抗性输入),从而将系统推向特定的错误答案。医疗保健 AI 的对照实验表明,对抗性助手智能体可以通过制造虚假共识(通过重复的协同一致将目标智能体推向有害建议),实现 98-100% 的攻击成功率。一个锚定外部事实真相(ground truth)的验证器智能体完全消除了这种攻击。
确定你处于哪种类别决定了适用哪种解决策略。大多数团队跳过了这一步,无论何种情况都应用单一策略,这就是为什么大多数多智能体系统的表现低于其理论上限。
多数投票制:强大的基线,可预测的失败
自洽性(Self-consistency)——从相同或不同的模型中采样多条推理路径并取多数答案——仍然是最稳健的起点。它易于实现,不需要额外的模型调用来进行仲裁,并且确实能提高具有多个有效解决路径的任务的性能。
但其上限比看起来要低。多数投票制在以下三种特定情况下会失效:
共享的系统性错误:如果你的所有智能体都在类似的数据上进行训练,它们就会共享相同的盲点。多数投票会放大共享的错误而不是过滤它们。在大多数智能体都出错的难题上,系统会自信地输出错误答案。解决办法是模型异构性——将来自不同模型家族、规模或专业领域的智能体配对。这是多智能体设计中杠杆率最高的架构决策。
认可投票制崩溃 (Approval voting collapse):当智能体被要求投票给所有可接受的答案而不仅仅是一个答案时,阿谀奉承的智能体(sycophantic agents)会投票给所有选项。2025 年的一项研究发现,这种方法在 59% 的评估运行中崩溃,产生的平票结果使系统无法使用。二元选择(选择一个最佳答案)的表现明显优于 LLM 投票者的多选方案。
任务类型不匹配:发表在 ACL 2025 上的研究发现,在推理任务中,多数投票的表现比共识协议高出 13.2%,但在知识检索任务中,表现却比共识协议低 2.8%。其机制不同:在推理任务中,多样化的解决方案路径需要共存;而在知识任务中,要求智能体达成一致可以捕捉到单个智能体漏掉的幻觉。大多数系统对所有任务类型应用单一策略, 从而浪费了性能。
LLM-as-Judge:有用的工具,不可靠的仲裁者
LLM 裁判模式(使用一个单独的模型来评估和从智能体输出中进行选择)现在已成为标准做法。但它也常被误解。
2024 年的一项全面基准测试列举了 LLM 裁判中的 12 种不同偏差类型。在生产环境中影响最大的四种是:
位置偏差 (Position bias):裁判系统性地偏好在成对比较中首先(或最后)呈现的输出。在代码评估任务中,交换两个回答的呈现顺序会导致准确率发生超过 10% 的偏移。所有测试的裁判模型都显示出这种效应。
自我偏好偏差 (Self-preference bias):LLM 裁判会给统计上对其自身模型更“熟悉”的输出打高分——即在裁判自身策略下困惑度(perplexity)较低的输出。GPT-4 显著表现出这一点。跨模型评估会系统性地偏向裁判所属的模型家族。
长度偏差 (Length bias):无论内容质量如何,裁判都偏好更长、更正式的回答。这是对人类偏好数据进行 RLHF 训练后的产物,因为人类通常将长度作为质量的一种启发式判断。
领域专家差距:在饮食学或心理健康等专业领域,LLM 裁判与人类领域专家的一致性仅为 60-68%。生产就绪的通用目标阈值是 Cohen's kappa > 0.8。大多数未校准的系统起步仅为 0.3。
这些偏差都不是避免使用 LLM 裁判的理由。它们是需要对裁判进行校准的原因。具体而言:在部署之前,在具有已知人类标签的测试集上运行你的裁判并测量 Cohen's kappa。使用来自真实生产失败案例的 few-shot 示例,而不是假设案例。使用二元 是/否 问题,而不是数字评分(LLM 缺乏自然的数字校准——“8 分 vs 9 分”的判断在不同运行中是不一致的)。关键是,要持续监控裁判的校准情况——生产分布会发生偏移,而 kappa 值会悄无声息地下降。
一个经过运营验证的启发式方法是:使用 3-5 个裁判模型进行多数投票,而不是单个裁判。由于采样的随机性,同一个评估追踪可能在周二通过,而在周五失败。集成评审(Ensemble judging)在不增加置信度校准复杂性的情况下增加了稳健性。
辩论协议:何时以及为何有效
多智能体辩论 —— 智能体独立提出答案,然后阅读彼此的推理并在多轮中进行修改 —— 在特定类型的问题上表现出真正的收益。但这些收益的产生条件比文献中通常呈现的更为具体。
辩论在存在信息不对称时能提高性能:当不同的智能体可以访问不同的相关信息,且目标是让拥有更好信息的智能体说服裁判时。这就是 Irving 等人在 2018 年确定的结构性机制:撒谎者需要构建虚假主张,而诚实者只需要找到这些主张中的一个漏洞。这种不对称性有利于真相。
当智能体拥有对称的信息获取渠道时,辩论并不能可靠地提高性能。如果你的所有智能体都在阅读相同的上下文窗口,辩论就会变成一场说服竞赛,而不是一种寻求真相的机制 —— 智能体在争论它们“相信”的立场时 更具说服力,而这与准确性可能相关,也可能无关。
一篇专门针对这一局限性的 2025 年论文引入了一种反从众机制:智能体并不在辩论轮次中趋向于共识,而是明确地抵制多数压力,并且所有轮次的中间输出都会被评分,而不仅仅是最终立场。这种方法只需要一轮辩论,极大地降低了 Token 成本。在八个基准测试中,它的表现优于标准的多轮辩论,同时使用了更少的 Token。
需要警惕的失败模式是幻觉共识。当智能体对虚假信息达成一致并相互强化时,结果不是单个智能体的幻觉 —— 而是一个经过润色、自信、相互印证的错误答案,且没有内部异议来发出错误信号。这比单个智能体的幻觉更危险,因为你通常用来检测错误的信号(分歧、回避、低置信度)消失了。如果一个智能体在共享内存中存储了一个虚构的事实,下游智能体就会将其视为经过验证的真理。
置信度权重:通过校准更有效
ReConcile 框架在多数投票制中增加了置信度评分 —— 每个智能体提供其答案和置信度估计,并据此对选票进行加权。在七个基准测试中,它比标准多数投票制显示出高达 11.4% 的收益,并在三个数据集上表现优于 GPT-4。
关键的实现细节:LLM 系统性地过度自信。如果没有校准,智能体会聚集在统一的高置信度分数上,将权重信号压缩到近乎零的差异。在产生价值之前,置信度权重需要校准(温度缩放 (temperature scaling)、Platt 缩放 (Platt scaling) 或经验分箱 (empirical binning))。未经 校准的置信度加权可能比单纯的多数投票表现更差,因为过度自信的错误智能体获得了过大的影响力。
校准也会随着时间的推移而默默退化。在你的训练分布上进行的校准会随着生产分布的偏移而侵蚀。跟踪校准偏移 —— 在滚动窗口内比较预测的置信度分布与实际准确率 —— 应该成为你监控栈的一部分。
何时呈现分歧而非合成答案
大多数系统设计中的本能反应是将智能体之间的分歧隐藏在合成输出之后。有时这是正确的,但通常并非如此。
在以下情况下向用户呈现分歧:
- 语义距离大:输出不仅在风格上不同,而且代表了不同的结论。基于嵌入的智能体输出语义聚类为你提供了一种原则性的衡量方法。
- 领域风险高:医疗诊断、法律分析、安全决策 —— 任何合成错误比承认不确定性更糟糕的领域。
- 智能体以极高的个体置信度表示反对:这种特定模式预示着一个真正有争议的问题。每个持有强烈且不兼容观点的智能体并不是在产生噪声 —— 它们正在探测人类推理者也会感到棘手的真实歧义。在此进行合成会产生虚假的信心。
- 辩论无法达成一致:如果智能体在固定轮次后未能达成一致,应通过断路器路由到人工升级,而不是强行合成。僵局也是一种信息。
在以下情况下合成并隐藏分歧:
- 分歧是风格上的,而非实质性的:对同一个底层答案的不同措辞。
- 问题是可验证的:如果智能体对可检查的内容(代码正确性、数据库记录、数学结果)产生分歧,应路由到验证步骤而不是仲裁步骤。
- 量大且风险低:为每个常规查询都呈现智能体的不确定性会造成认知负荷,而无法为更好的决策提供信息。
来自 ACM DIS 2025 会议的一个实用 UX 模式:提供一个分层界面,在顶层合成答案旁边设置一个可展开的“分歧观点”部分,显示智能体的推理过程。这既满足了追求简单的用户,又为那些做出高风险决策的用户保留了获取分歧信息的渠道。
在没有地面真值的情况下衡量仲裁质量
这个问题最难的部分在于,你通常无法衡量你的仲裁是否奏效。没有可以对照的地面真值(Ground truth)。该领域已经开发出几种比最初看起来更可靠的代理指标。
投票熵 (Vote entropy) 衡量分歧强度:投票分布上的香农熵告诉你智能体之间的分歧有多均匀,而不仅仅是它们是否产生了分歧。一个 5 个智能体中有 4 个达成一致的系统,与一个 5 个智能体全部产生分歧的系统处于不同的状态。嵌入几何 (Embedding geometry) 进一步扩展了这一点——通过测量多数立场和少数立场嵌入之间的几何距离,将其作为校准后的不确定性信号。一篇 2026 年的论文使用这种方法在检测真实不确定性方面实现了 0.802 的 AUROC,而 LLM 聚合器基准为 0.791,且校准效果显著更好。
扰动下的一致性 (Consistency under perturbation) 测试的是你的裁判而非智能体。一个经过良好校准的裁判在你进行以下操作时应产生相同的结论:
- 打乱选项呈现的顺序(位置偏差检查)
- 以语义相同的方式重新表述问题
- 在不同的温度(Temperature)下采样
这些扰动下的一致性缺失能在校准问题演变成生产环境错误之前将其暴露出来。
运营升级率 (Operational escalation rate) 是一个从业者监控不足的领先指标。在一个校准良好的系统中,仲裁路由到人工升级的比例应保持在 10-15% 的范围内。低于 10% 表明系统过度自信且升级不足。高于 15% 则表明系统的自动化程度不足以产生价值。该比率在任何方向上的偏移都预示着你的输入分布或智能体行为发生了变化。
任务分解优于仲裁
生产环境中多智能体系统最重要的教训是:最好的仲裁策略是从一开始就防止冲突发生。
Anthropic 的多智能体研究系统——一个运行 Claude Opus 4 的编排器,配合并行研究的 Sonnet 子智能体——在内部基准测试中比单智能体 Claude Opus 4 的性能高出 90%。该架构没有使用复杂的投票或辩论。它使用了详细的任务边界,防止智能体之间产生重叠的主张。主智能体负责综合而非仲裁,接收子智能体的发现并确定哪些信息是足够的。分歧很少出现,因为任务分解没有留下任何有争议的领域。
这是在关于辩论和投票的文献中被低估的教训:通过清晰的任务分解来防 止冲突的成本在设计时就是固定的。而通过仲裁解决冲突的成本则是在每次智能体产生分歧时,按查询次数在延迟和 Token 上支付的。一个设计成极少产生分歧的系统,总是能以更低的成本超越一个拥有复杂分歧解决机制的系统。
先设计任务分配。为任务分解无法防止的残留分歧构建仲裁层。并监控对抗性合谋——人为制造的虚假共识是无论好的任务设计还是好的仲裁,在没有外部验证的情况下都无法解决的一种故障模式。
智能体何时产生分歧这个问题最终是错误的框架。正确的问题是:当分歧本身就是答案时,你的系统会做什么?
- https://arxiv.org/abs/2305.14325
- https://arxiv.org/abs/2309.13007
- https://arxiv.org/abs/2406.04692
- https://arxiv.org/html/2503.13657v1
- https://arxiv.org/abs/2502.14143
- https://arxiv.org/html/2502.19130v4
- https://arxiv.org/pdf/2502.08788
- https://arxiv.org/abs/2509.11035
- https://arxiv.org/abs/2410.21819
- https://arxiv.org/html/2512.03097v1
- https://arxiv.org/html/2603.20975
- https://arxiv.org/abs/2411.15594
- https://arxiv.org/html/2402.06782
- https://galileo.ai/blog/why-llm-as-a-judge-fails
- https://galileo.ai/blog/multi-agent-coordination-strategies
- https://www.anthropic.com/engineering/multi-agent-research-system
- https://www.together.ai/blog/together-moa
- https://arxiv.org/html/2511.14136v1
- https://aclanthology.org/2025.findings-acl.1141/
