辩论多样性坍塌：当三个智能体投出 3-0 只因它们读过同样的互联网

2026年4月26日 · 阅读需 13 分钟

Software Engineer

架构图上写着“三个前沿模型集成、辩论与对齐、多数投票”。追踪记录显示，所有三个智能体在第一轮就达成了一致，并又花了两个回合礼貌地互相转述。评估结果显示比单次调用高出 0.4 分。账单显示成本是 4.2 倍。在这其中的某个环节，有人判定这个委员会运作良好。

多智能体辩论被宣传为一种获取分歧驱动推理的方法：三个大脑相互争论，以获得比其中任何一个单独达到的更好的答案。但这取决于智能体是否真的存在分歧。在重叠的网络语料库上训练、针对重叠的偏好数据集进行指令微调、并针对重叠的安全分类法进行对齐的前沿 LLM，其共享的先验知识远比架构图所承认的要多。在经过一轮“让我们达成一致”之后，你观察到的并不是三种观点向真理汇聚——而是来自同一个分布的三个样本向它们原本就相距不远的众数汇聚。

这种模式在最近的文献中有一个名字：当一个集成的投票分歧率趋于零且与问题难度无关时，你就遇到了辩论多样性崩塌（debate diversity collapse）。委员会仍在投票。但投票已不再携带任何信息。

独立验证的错觉

多智能体辩论背后的思维模型借鉴了人类制度：陪审团、同行评审、科学复制。这些制度之所以有效，是因为参与其中的人足够独立，他们的错误是不相关的。只有当第二个团队拥有不同的方法论、不同的实验室文化、以及对什么是合理的有不同的先验判断时，复制实验才能精准地捕捉到错误。

LLM 集成未能通过这种独立性测试，其方式往往容易被忽视，因为模型名称不同。来自同一个实验室的三个检查点共享指令微调配方、拒绝训练集、系统提示词惯例以及大量重叠的预训练 token。即使是跨实验室的集成，通常也共享相同的公开抓取的 Common Crawl 快照、相同的 Reddit 和 Wikipedia 先验，以及针对人口统计数据重叠的外包人员池训练出的相同 RLHF 判断模式。当这样的集成被问到一个答案是众所周知事实的问题时，它们当然会达成一致——这种一致是有信息的。但当被问到一个答案有争议或超出分布（out-of-distribution）的问题时，它们往往仍然达成一致，因为它们的分布从未相距太远，这种一致便不再具有信息价值。

最近的衡量工作使这一点变得具体。在同质化智能体的集成中，准确率在智能体数量较少时有所提高，然后便陷入边际收益递减：随着新增智能体产生的轨迹越来越成为彼此冗余的副本，边际增益降至零。仅凭两个真正多样化的智能体，其表现就能达到或超过 16 个同质化智能体的表现。数学计算表明，从第 2 个到第 16 个同质化智能体都在为近乎零的信息支付全额的 token 成本。

除此之外，还有一个更微妙的失败：奉承效应（sycophancy）。被微调得善解人意的 LLM 会阅读同行的输出并向其靠拢，即使它们自己在第一轮的答案是正确的。在已发表的辩论记录中，从众性（改变你的答案以匹配同行）始终超过固执性（坚持你的先验）。系统本应利用分歧来发现错误。相反，最响亮或最早出现的答案获胜，因为其他智能体投降了。

为什么多数投票看起来一直有效

在仪表盘上很难察觉辩论多样性崩塌的原因是，顶层指标通常确实比单次零温度（zero-temperature）调用有所提高。这种改进是真实的。但其机制并非架构图所声称的那样。

归功于多智能体辩论的大部分经验性增益实际上归功于集成（ensembling）——这与让自洽性（self-consistency）在单个模型高温度多次采样下生效的机制相同。跨独立样本的方差缩减提高了模型在大多数抽取中都是正确的问题上的准确率。你不需要三个不同的模型来实现这一点。你需要的是三个不同的样本。

一旦你以这种方式分解增益，成本结构就会变得很难看。一个在 0.7 温度下对单个模型进行 5 次采样的自洽性基准，其效果通常与使用三个前沿模型的三智能体辩论处于同一噪声范围内，而成本和延迟仅为后者的一小部分。辩论为你带来了一样自洽性无法提供的东西：捕捉单个模型在大多数抽取中都会犯的错误的机会。而这个机会恰恰与其它智能体的先验实际有多大差异成正比。如果多样性是虚假的，辩论就是虚假的，你是在为自洽性本来可以免费提供的东西支付溢价。

这是构建系统的团队很少写进文档的成本框架：第二个和第三个智能体正在支付 token 来表示同意。如果它们达成一致是因为答案显而易见，你就不需要它们。如果它们达成一致是因为它们与第一个智能体共享先验，那么你得到的就是一个伪装成深思熟虑的昂贵方差缩减技巧。

衡量专家组是否真的在商讨

你无法改进无法衡量的东西，而“专家组是否进行了商讨”在任何追踪工具中都不是默认字段。以下几项指标可以区分真正的辩论与虚假的演戏：

投票分歧率随时间的变化。 针对每个问题、每一轮，在中间方案层面而非仅在最终答案层面追踪分歧。健康的辩论在面对难题时，第一轮应该有很高的分歧，并在最后一轮达成收敛。而失效的辩论无论难度如何，从第一轮开始就没有任何分歧。
中间推理过程的结构多样性。 对推理路径的嵌入（embeddings）计算余弦距离，可以捕捉到智能体通过完全相同的论据得出相同答案的情况。如果两个智能体的思维链在几何空间上聚集，即使它们的最终答案恰好不同，这些智能体也没有提供独立的信息。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

辩论多样性坍塌：当三个智能体投出 3-0 只因它们读过同样的互联网

独立验证的错觉

为什么多数投票看起来一直有效

衡量专家组是否真的在商讨

Recommended Reading

关于 Tian Pan

独立验证的错觉​

为什么多数投票看起来一直有效​

衡量专家组是否真的在商讨​

Recommended Reading

关于 Tian Pan

独立验证的错觉

为什么多数投票看起来一直有效

衡量专家组是否真的在商讨