辩论多样性坍塌:当三个智能体投出 3-0 只因它们读过同样的互联网
架构图上写着“三个前沿模型集成、辩论与对齐、多数投票”。追踪记录显示,所有三个智能体在第一轮就达成了一致,并又花了两个回合礼貌地互相转述。评估结果显示比单次调用高出 0.4 分。账单显示成本是 4.2 倍。在这其中的某个环节,有人判定这个委员会运作良好。
多智能体辩论被宣传为一种获取分歧驱动推理的方法:三个大脑相互争论,以获得比其中任何一个单独达到的更好的答案。但这取决于智能体是否真的存在分歧。在重叠的网络语料库上训练、针对重叠的偏好数据集进行指令微调、并针对重叠的安全分类法进行对齐的前沿 LLM,其共享的先验知识远比架构图所承认的要多。在经过一轮“让我们达成一致”之后,你观察到的并不是三种观点向真理汇聚——而是来自同一个分布的三个样本向它们原本就相距不远的众数汇聚。
这种模式在最近的文献中有一个名字:当一个集成的投票分歧率趋于零且与问题难度无关时,你就遇到了辩论多样性崩塌(debate diversity collapse)。委员会仍在投票。但投票已不再携带任何信息。
独立验证的错觉
多智能体辩论背后的思维模型借鉴了人类制度:陪审团、同行评审、科学复制。这些制度之所以有效,是因为参与其中的人足够独立,他们的错误是不相关的。只有当第二个团队拥有不同的方法论、不同的实验室文化、以及对什么是合理的有不同的先验判断时,复制实验才能精准地捕捉到错误。
LLM 集成未能通过这种独立性测试,其方式往往容易被忽视,因为模型名称不同。来自同一个实验室的三个检查点共享指令微调配方、拒绝训练集、系统提示词惯例以及大量重叠的预训练 token。即使是跨实验室的集成,通常也共享相同的公开抓取的 Common Crawl 快照、相同的 Reddit 和 Wikipedia 先验,以及针对人口统计数据重叠的外包人员池训练出的相同 RLHF 判断模式。当这样的集成被问到一个答案是众所周知事实的问题时,它们当然会达成一致——这种一致是有信息的。但当被问到一个答案有争议或超出分布(out-of-distribution)的问题时,它们往往仍然达成一致,因为它们的分布从未相距太远,这种一致便不再具有信息价值。
最近的衡量工作使这一点变得具体。在同质化智能体的集成中,准确率在智能体数量较少时有所提高,然后便陷入边际收益递减:随着新增智能体产生的轨迹越来越成为彼此冗余的副本,边际增益降至零。仅凭两个真正多样化的智能体,其表现就能达到或超过 16 个同质化智能体的表现。数学计算表明,从第 2 个到第 16 个同质化智能体都在为近乎零的信息支付全额的 token 成本。
除此之外,还有一个更微妙的失败:奉承效应(sycophancy)。被微调得善解人意的 LLM 会阅读同行的输出并向其靠拢,即使它们自己在第一轮的答案是正确的。在已发表的辩论记录中,从众性(改变你的答案以匹配同行)始终超过固执性(坚持你的先验)。系统本应利用分歧来发现错误。相反,最响亮或最早出现的答案获胜,因为其他智能体投降了。
为什么多数投票看起来一直有效
在仪表盘上很难察觉辩论多样性崩塌的原因是,顶层指标通常确实比单次零温度(zero-temperature)调用有所提高。这种改进是真实的。但其机制并非架构图所声称的那样。
归功于多智能体辩论的大部分经验性增益实际上归功于集成(ensembling)——这与让自洽性(self-consistency)在单个模型高温度多次采样下生效的机制相同。跨独立样本的方差缩减提高了模型在大多数抽取中都是正确的问题上的准确率。你不需要三个不同的模型来实现这一点。你需要的是三个不同的样本。
一旦你以这种方式分解增益,成本结构就会变得很难看。一个在 0.7 温度下对单个模型进行 5 次采样的自洽性基准,其效果通常与使用三个前沿模型的三智能体辩论处于同一噪声范围内,而成本和延迟仅为后者的一小部分。辩论为你带来了一样自洽性无法提供的东西:捕捉单个模型在大多数抽取中都会犯的错误的机会。而这个机会恰恰与其它智能体的先验实际有多大差异成正比。 如果多样性是虚假的,辩论就是虚假的,你是在为自洽性本来可以免费提供的东西支付溢价。
这是构建系统的团队很少写进文档的成本框架:第二个和第三个智能体正在支付 token 来表示同意。如果它们达成一致是因为答案显而易见,你就不需要它们。如果它们达成一致是因为它们与第一个智能体共享先验,那么你得到的就是一个伪装成深思熟虑的昂贵方差缩减技巧。
衡量专家组是否真的在商讨
你无法改进无法衡量的东西,而“专家组是否进行了商讨”在任何追踪工具中都不是默认字段。以下几项指标可以区分真正的辩论与虚假的演戏:
- 投票分歧率随时间的变化。 针对每个问题、每一轮,在中间方案层面而非仅在最终答案层面追踪分歧。健康的辩论在面对难题时,第一轮应该有很高的分歧,并在最后一轮达成收敛。而失效的辩论无论难度如何,从第一轮开始就没有任何分歧。
- 中间推理过程的结构多样性。 对推理路径的嵌入(embeddings)计算余弦距离,可以捕捉到智能体通过完全相同的论据得出相同答案的情况。如果两个智能体的思维链在几何空间上聚集,即使它们的最终答案恰好不同,这些智能体也没有提供独立的信息。
- 正确答案不占主流的留存对抗案例。 构建一小部分评估问题,这些问题的显而易见答案是错误的,而正确答案需要抵制共识。如果一个专家组通过多数投票在这些问题上出错,那么这个专家组就完全无法进行富有成效的辩论。这是大多数运行多智能体系统的团队所缺失的、信号最强的评估手段。
- 身份偏差系数。 衡量每个智能体最终匹配第一个智能体给出的答案,与匹配其自身第一轮答案的频率。如果从众率超过某个阈值,就说明辩论协议在放大谄媚(sycophancy)效应,而不是在抑制它。
这些指标之所以尚未成为标准,是因为它们需要对中间状态进行观测,而不仅仅是查看最终投票。你为了成本归因已经收集的那些路径数据(trace data)中就包含答案;只是还没有人从“分歧”的角度去审视它。
保持分歧的架构模式
如果你决定真正需要的辩论,那么产生辩论的架构选择将与大多数团队默认的选择截然不同:
跨厂商模型组合。 使用来自不同实验室的模型权重(checkpoints),这些模型具有不同的预训练组合、不同的 RLHF 配方和不同的拒绝触发训练。你实际购买的多样性存在于先验知识中,而先验知识更多地取决于训练数据和微调方式,而非参数量。来自同一个实验室的三个模型版本,即使参数规模不同,它们之间的相似度也比其中任何一个与竞争对手旗舰模型的相似度要高。
带有对抗性系统提示词的角色提示批评者。 不要问三个完全相同的智能体相同的问题,而是固定一个作为提案者,另外一个或两个作为批评者,并在系统提示词中明确要求寻找漏洞、索要证据或辩论相反的情况。角色不对称性起到了模型多样性通常无法起 到的作用。批评者的提示词必须足够激进,以覆盖模型本能的认同感——“找出针对此答案最强有力的反驳论点”优于“审查答案的正确性”。
温度梯次采样。 当你必须使用同一个模型系列时,在专家组中改变解码参数。一个处于低温度(low temperature)的智能体给你众数答案(modal answer)。两个处于高温度的智能体给你分布的尾部答案。这种做法的结构性论据与“自我一致性”(self-consistency)论据完全一致,只是重新包装在辩论中:变异性为你提供了对众数采样所抑制的替代补全方案的覆盖。
匿名辩论记录。 从每个智能体看到的对话消息中剥离身份标签。最近的研究表明,身份标记本身会创造谄媚通道——智能体之所以向同行妥协,部分原因是同行的身份激活了训练中形成的“尊重此声音”的模式。匿名化成本极低,无需重新训练,且能在不改变交流实质内容的情况下,显著降低从众行为。
基于能力特长策划的专家组。 根据已知在当前任务上的能力差异来选择智能体,而不是因为“三”是一个整数。一个由擅长静态分析的模型、一个擅长运行时推理的模型和一个擅长发现安全反模式的模型组成的编程辩论组,其表现将优于三个通用模型,且成本相同。能力差异化才是承重属性;“不同的模型名称”则不是。
统一的原则是:多样性必须是设计出来的。仅仅使用来自三个不同实验室的三个前沿模型是不够的。辩论协议必须主动奖励分歧并抵制共识的拉力,否则无论你堆叠多少个智能体,系统都会坍缩为“对近乎相同的样本进行多数投票”。
区分“显而易见”与“无能为力”的评估准 则
从外部来看,最难判断的情况是:由于答案确实显而易见,专家组达成了一致。大多数生产环境的流量看起来都是这样的——智能体达成一致是因为存在唯一的正确答案,任何合理的系统都会收敛。在这些流量中,你无法区分健康的专家组和失效的专家组。它们的投票结果都是 3-0。在成功率指标上看起来都很好。
区分它们的唯一方法是对抗性留存集。你构建一个规模特意缩减的评估集——通常 50 到 200 个案例就足够了——在这些案例中,正确答案要求专家组不要收敛于第一个听起来合理的回答。在这些情况下,应该有一个智能体坚持立场,并迫使协议认真对待少数意见。如果专家组通过了这些测试,你就有证据表明,在关键时刻,该协议能够维持富有成效的分歧。如果失败了,你就知道你拥有的是什么:一个在简单问题上有效,但在困难问题上会给你自信的错误答案的变异减少技巧,这绝对比单次校准良好的调用更糟糕。
这个评估切片也是你在更改协议时观察回归(regressions)的地方。一个常见的错误是引入一个“调和”(reconciliation)提示词,明确要求智能体寻找共同点。在简单问题上,顶层指标会提升。但在对抗性切片上,指标会暴跌,因为调和提示词就是“请坍缩”的正式书面版本。如果没有留存集,这种退化是不可见的。
专家面板的真实用途
坦白说,通常部署的多智能体辩论(multi-agent debate)最大的用处在于,它是其所需评估规范(eval discipline)的一种强制函数,而不是一个能超越单模型系统的运行时集成。认真对待辩论的团队最终会建立起多样性度量、对抗性留存集、匿名化机制以及带有角色提示的评论者——无论运行时架构中是否保留辩论环节,这些投入中的大部分都会产生回报。这种监测体系(instrumentation)比架构选择更具持久价值。
关于运行时的抉择——是采用辩论、自我一致性(self-consistency)还是单次调用——应当由代表性评估集上的“单次验证结果的成本”来决定,而不是由架构图上所承诺的审议能力来决定。如果在关键问题上,你的辩论表现优于自我一致性的程度足以覆盖其 Token 溢价,那就保留它。如果做不到,那么这个专家面板就只是在演戏,这笔预算不如花在更强大的主模型上,或者花在你已经计划了两个季度却还没建立的评估集上。
最清晰的思想模型是:多智能体面板是一个公开声明,声称分歧正在被有效地利用。就像任何公开声明一样,它的价值取决于其可审计性。在团队能够展示随时间变化的投票分歧率、中间推理的结构多样性以及对抗性留存分数之前,这种声明都是未经证实的。而未经证实的声明在生产环境中会退化为一种失效模式:专家面板会一直保持一致,直到某一天它们满怀信心地在错误的事情上达成一致。
- https://arxiv.org/html/2510.07517
- https://openreview.net/forum?id=hkBM5QkFVg
- https://arxiv.org/pdf/2509.05396
- https://aclanthology.org/2025.emnlp-main.772.pdf
- https://arxiv.org/html/2602.03794
- https://link.springer.com/article/10.1007/s44443-025-00353-3
- https://arxiv.org/html/2603.20975
- https://arxiv.org/abs/2603.20324
- https://aclanthology.org/2025.findings-acl.606.pdf
- https://arxiv.org/html/2510.12697v1
- https://arxiv.org/pdf/2402.05201
- https://arxiv.org/abs/2510.01218
- https://arxiv.org/html/2502.05234v2
- https://link.springer.com/article/10.1140/epjds/s13688-025-00579-1
