当你的智能体意见不一致时：多智能体系统中的共识与仲裁

2026年4月12日 · 阅读需 15 分钟

Software Engineer

多智能体系统（Multi-agent systems）是基于一个承诺而诞生的：多个并行的专业化智能体协同工作，产生的结果会优于任何单个智能体。但这个承诺隐藏了一个前提——当智能体给出不同答案时，你知道如何调解它们。大多数团队在发现自己无法调解时，往往为时已晚。

天真的做法是取输出的平均值，或者选择多数票答案，然后继续。在实践中，如果所有智能体共享相同的训练分布，多智能体系统会通过多数表决放大它们的共同错误，而不是抵消错误。一个总是听从最有信心智能体的系统，会盲目跟随那个最过度自信的智能体。而一个将所有分歧都交给 LLM 裁判（LLM judge）处理的系统，会继承该裁判的 12 种已被记录的偏差类型。仲裁问题比看起来要难，如果处理不当，你可能会在一周内遇到四次生产事故。

多智能体分歧的分类 (The Taxonomy of Multi-Agent Disagreement)

在寻求解决方案之前，对你正在面对的分歧类型进行分类是有帮助的。

风格分歧 (Stylistic disagreement)：智能体在实质内容上达成一致，但在措辞、侧重点或格式上存在差异。这种分歧可以安全地合成——选择其中一个，或进行合并。不需要进行判断决策。

推理分歧 (Reasoning disagreement)：智能体通过不同的路径得出不同的结论。输出在语义上是截然不同的，而不仅仅是风格上的。这需要仲裁。

高置信度分歧 (High-confidence disagreement)：多个智能体各自对互斥的答案保持高度自信。这是一个诊断性案例——它表明你遇到了一个真正模糊的领域，在这个领域中人类推理者也会产生分歧。在这里合成虚假的共识会主动损害用户。

对抗性分歧 (Adversarial disagreement)：一个或多个智能体已被操纵（通过提示词注入、毒化上下文或对抗性输入），从而将系统推向特定的错误答案。医疗保健 AI 的对照实验表明，对抗性助手智能体可以通过制造虚假共识（通过重复的协同一致将目标智能体推向有害建议），实现 98-100% 的攻击成功率。一个锚定外部事实真相（ground truth）的验证器智能体完全消除了这种攻击。

确定你处于哪种类别决定了适用哪种解决策略。大多数团队跳过了这一步，无论何种情况都应用单一策略，这就是为什么大多数多智能体系统的表现低于其理论上限。

多数投票制：强大的基线，可预测的失败

自洽性（Self-consistency）——从相同或不同的模型中采样多条推理路径并取多数答案——仍然是最稳健的起点。它易于实现，不需要额外的模型调用来进行仲裁，并且确实能提高具有多个有效解决路径的任务的性能。

但其上限比看起来要低。多数投票制在以下三种特定情况下会失效：

共享的系统性错误：如果你的所有智能体都在类似的数据上进行训练，它们就会共享相同的盲点。多数投票会放大共享的错误而不是过滤它们。在大多数智能体都出错的难题上，系统会自信地输出错误答案。解决办法是模型异构性——将来自不同模型家族、规模或专业领域的智能体配对。这是多智能体设计中杠杆率最高的架构决策。

认可投票制崩溃 (Approval voting collapse)：当智能体被要求投票给所有可接受的答案而不仅仅是一个答案时，阿谀奉承的智能体（sycophantic agents）会投票给所有选项。2025 年的一项研究发现，这种方法在 59% 的评估运行中崩溃，产生的平票结果使系统无法使用。二元选择（选择一个最佳答案）的表现明显优于 LLM 投票者的多选方案。

任务类型不匹配：发表在 ACL 2025 上的研究发现，在推理任务中，多数投票的表现比共识协议高出 13.2%，但在知识检索任务中，表现却比共识协议低 2.8%。其机制不同：在推理任务中，多样化的解决方案路径需要共存；而在知识任务中，要求智能体达成一致可以捕捉到单个智能体漏掉的幻觉。大多数系统对所有任务类型应用单一策略，从而浪费了性能。

LLM-as-Judge：有用的工具，不可靠的仲裁者

LLM 裁判模式（使用一个单独的模型来评估和从智能体输出中进行选择）现在已成为标准做法。但它也常被误解。

2024 年的一项全面基准测试列举了 LLM 裁判中的 12 种不同偏差类型。在生产环境中影响最大的四种是：

位置偏差 (Position bias)：裁判系统性地偏好在成对比较中首先（或最后）呈现的输出。在代码评估任务中，交换两个回答的呈现顺序会导致准确率发生超过 10% 的偏移。所有测试的裁判模型都显示出这种效应。

自我偏好偏差 (Self-preference bias)：LLM 裁判会给统计上对其自身模型更“熟悉”的输出打高分——即在裁判自身策略下困惑度（perplexity）较低的输出。GPT-4 显著表现出这一点。跨模型评估会系统性地偏向裁判所属的模型家族。

长度偏差 (Length bias)：无论内容质量如何，裁判都偏好更长、更正式的回答。这是对人类偏好数据进行 RLHF 训练后的产物，因为人类通常将长度作为质量的一种启发式判断。

领域专家差距：在饮食学或心理健康等专业领域，LLM 裁判与人类领域专家的一致性仅为 60-68%。生产就绪的通用目标阈值是 Cohen's kappa > 0.8。大多数未校准的系统起步仅为 0.3。

这些偏差都不是避免使用 LLM 裁判的理由。它们是需要对裁判进行校准的原因。具体而言：在部署之前，在具有已知人类标签的测试集上运行你的裁判并测量 Cohen's kappa。使用来自真实生产失败案例的 few-shot 示例，而不是假设案例。使用二元是/否问题，而不是数字评分（LLM 缺乏自然的数字校准——“8 分 vs 9 分”的判断在不同运行中是不一致的）。关键是，要持续监控裁判的校准情况——生产分布会发生偏移，而 kappa 值会悄无声息地下降。

一个经过运营验证的启发式方法是：使用 3-5 个裁判模型进行多数投票，而不是单个裁判。由于采样的随机性，同一个评估追踪可能在周二通过，而在周五失败。集成评审（Ensemble judging）在不增加置信度校准复杂性的情况下增加了稳健性。

辩论协议：何时以及为何有效

多智能体辩论 —— 智能体独立提出答案，然后阅读彼此的推理并在多轮中进行修改 —— 在特定类型的问题上表现出真正的收益。但这些收益的产生条件比文献中通常呈现的更为具体。

辩论在存在信息不对称时能提高性能：当不同的智能体可以访问不同的相关信息，且目标是让拥有更好信息的智能体说服裁判时。这就是 Irving 等人在 2018 年确定的结构性机制：撒谎者需要构建虚假主张，而诚实者只需要找到这些主张中的一个漏洞。这种不对称性有利于真相。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

当你的智能体意见不一致时：多智能体系统中的共识与仲裁

多智能体分歧的分类 (The Taxonomy of Multi-Agent Disagreement)

多数投票制：强大的基线，可预测的失败

LLM-as-Judge：有用的工具，不可靠的仲裁者

辩论协议：何时以及为何有效

Recommended Reading

关于 Tian Pan

多智能体分歧的分类 (The Taxonomy of Multi-Agent Disagreement)​

多数投票制：强大的基线，可预测的失败​

LLM-as-Judge：有用的工具，不可靠的仲裁者​

辩论协议：何时以及为何有效​

Recommended Reading

关于 Tian Pan

多智能体分歧的分类 (The Taxonomy of Multi-Agent Disagreement)

多数投票制：强大的基线，可预测的失败

LLM-as-Judge：有用的工具，不可靠的仲裁者

辩论协议：何时以及为何有效