跳到主要内容

当你的智能体意见不一致时:多智能体系统中的共识与仲裁

· 阅读需 15 分钟
Tian Pan
Software Engineer

多智能体系统(Multi-agent systems)是基于一个承诺而诞生的:多个并行的专业化智能体协同工作,产生的结果会优于任何单个智能体。但这个承诺隐藏了一个前提——当智能体给出不同答案时,你知道如何调解它们。大多数团队在发现自己无法调解时,往往为时已晚。

天真的做法是取输出的平均值,或者选择多数票答案,然后继续。在实践中,如果所有智能体共享相同的训练分布,多智能体系统会通过多数表决放大它们的共同错误,而不是抵消错误。一个总是听从最有信心智能体的系统,会盲目跟随那个最过度自信的智能体。而一个将所有分歧都交给 LLM 裁判(LLM judge)处理的系统,会继承该裁判的 12 种已被记录的偏差类型。仲裁问题比看起来要难,如果处理不当,你可能会在一周内遇到四次生产事故。

多智能体分歧的分类 (The Taxonomy of Multi-Agent Disagreement)

在寻求解决方案之前,对你正在面对的分歧类型进行分类是有帮助的。

风格分歧 (Stylistic disagreement):智能体在实质内容上达成一致,但在措辞、侧重点或格式上存在差异。这种分歧可以安全地合成——选择其中一个,或进行合并。不需要进行判断决策。

推理分歧 (Reasoning disagreement):智能体通过不同的路径得出不同的结论。输出在语义上是截然不同的,而不仅仅是风格上的。这需要仲裁。

高置信度分歧 (High-confidence disagreement):多个智能体各自对互斥的答案保持高度自信。这是一个诊断性案例——它表明你遇到了一个真正模糊的领域,在这个领域中人类推理者也会产生分歧。在这里合成虚假的共识会主动损害用户。

对抗性分歧 (Adversarial disagreement):一个或多个智能体已被操纵(通过提示词注入、毒化上下文或对抗性输入),从而将系统推向特定的错误答案。医疗保健 AI 的对照实验表明,对抗性助手智能体可以通过制造虚假共识(通过重复的协同一致将目标智能体推向有害建议),实现 98-100% 的攻击成功率。一个锚定外部事实真相(ground truth)的验证器智能体完全消除了这种攻击。

确定你处于哪种类别决定了适用哪种解决策略。大多数团队跳过了这一步,无论何种情况都应用单一策略,这就是为什么大多数多智能体系统的表现低于其理论上限。

多数投票制:强大的基线,可预测的失败

自洽性(Self-consistency)——从相同或不同的模型中采样多条推理路径并取多数答案——仍然是最稳健的起点。它易于实现,不需要额外的模型调用来进行仲裁,并且确实能提高具有多个有效解决路径的任务的性能。

但其上限比看起来要低。多数投票制在以下三种特定情况下会失效:

共享的系统性错误:如果你的所有智能体都在类似的数据上进行训练,它们就会共享相同的盲点。多数投票会放大共享的错误而不是过滤它们。在大多数智能体都出错的难题上,系统会自信地输出错误答案。解决办法是模型异构性——将来自不同模型家族、规模或专业领域的智能体配对。这是多智能体设计中杠杆率最高的架构决策。

认可投票制崩溃 (Approval voting collapse):当智能体被要求投票给所有可接受的答案而不仅仅是一个答案时,阿谀奉承的智能体(sycophantic agents)会投票给所有选项。2025 年的一项研究发现,这种方法在 59% 的评估运行中崩溃,产生的平票结果使系统无法使用。二元选择(选择一个最佳答案)的表现明显优于 LLM 投票者的多选方案。

任务类型不匹配:发表在 ACL 2025 上的研究发现,在推理任务中,多数投票的表现比共识协议高出 13.2%,但在知识检索任务中,表现却比共识协议低 2.8%。其机制不同:在推理任务中,多样化的解决方案路径需要共存;而在知识任务中,要求智能体达成一致可以捕捉到单个智能体漏掉的幻觉。大多数系统对所有任务类型应用单一策略,从而浪费了性能。

LLM-as-Judge:有用的工具,不可靠的仲裁者

LLM 裁判模式(使用一个单独的模型来评估和从智能体输出中进行选择)现在已成为标准做法。但它也常被误解。

2024 年的一项全面基准测试列举了 LLM 裁判中的 12 种不同偏差类型。在生产环境中影响最大的四种是:

位置偏差 (Position bias):裁判系统性地偏好在成对比较中首先(或最后)呈现的输出。在代码评估任务中,交换两个回答的呈现顺序会导致准确率发生超过 10% 的偏移。所有测试的裁判模型都显示出这种效应。

自我偏好偏差 (Self-preference bias):LLM 裁判会给统计上对其自身模型更“熟悉”的输出打高分——即在裁判自身策略下困惑度(perplexity)较低的输出。GPT-4 显著表现出这一点。跨模型评估会系统性地偏向裁判所属的模型家族。

长度偏差 (Length bias):无论内容质量如何,裁判都偏好更长、更正式的回答。这是对人类偏好数据进行 RLHF 训练后的产物,因为人类通常将长度作为质量的一种启发式判断。

领域专家差距:在饮食学或心理健康等专业领域,LLM 裁判与人类领域专家的一致性仅为 60-68%。生产就绪的通用目标阈值是 Cohen's kappa > 0.8。大多数未校准的系统起步仅为 0.3。

这些偏差都不是避免使用 LLM 裁判的理由。它们是需要对裁判进行校准的原因。具体而言:在部署之前,在具有已知人类标签的测试集上运行你的裁判并测量 Cohen's kappa。使用来自真实生产失败案例的 few-shot 示例,而不是假设案例。使用二元 是/否 问题,而不是数字评分(LLM 缺乏自然的数字校准——“8 分 vs 9 分”的判断在不同运行中是不一致的)。关键是,要持续监控裁判的校准情况——生产分布会发生偏移,而 kappa 值会悄无声息地下降。

一个经过运营验证的启发式方法是:使用 3-5 个裁判模型进行多数投票,而不是单个裁判。由于采样的随机性,同一个评估追踪可能在周二通过,而在周五失败。集成评审(Ensemble judging)在不增加置信度校准复杂性的情况下增加了稳健性。

辩论协议:何时以及为何有效

多智能体辩论 —— 智能体独立提出答案,然后阅读彼此的推理并在多轮中进行修改 —— 在特定类型的问题上表现出真正的收益。但这些收益的产生条件比文献中通常呈现的更为具体。

辩论在存在信息不对称时能提高性能:当不同的智能体可以访问不同的相关信息,且目标是让拥有更好信息的智能体说服裁判时。这就是 Irving 等人在 2018 年确定的结构性机制:撒谎者需要构建虚假主张,而诚实者只需要找到这些主张中的一个漏洞。这种不对称性有利于真相。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates