那个因为共享 Prompt 模板而对子代理盲目“盖章”放行的监督代理

2026年6月3日 · 阅读需 11 分钟

Software Engineer

我上个月接触的一个团队对一个数字感到非常自豪：他们的高级主管智能体（supervisor agent）在第一次审查时就批准了其子智能体（subagents）97% 的计划。他们将其解读为“子智能体非常有能力”。六周后的红队审查则将其解读为“主管和子智能体实际上是同一个评估者在给自己的输出打分”。这两种解读都符合数据，但只有其中一种在生产环境中是真正“承重”的。

主管-审查-子智能体模式（supervisor-reviews-subagent pattern）是 2026 年多智能体系统中最常见的形态——约占生产部署的 70%，其中包括各大实验室发布的大多数参考设计。在纸面上，这看起来像是一种校验机制。规划者分解任务，专家执行者制定计划，主管在授权执行前审查每个计划。关注点分离、清晰的审计追踪，应有尽有。问题在于，如果你使用相同的基础提示词模板来构建主管和子智能体——即使角色特定的补充说明有一段不同——你构建的也不是校验机制，而是一个审查步骤，它只是同一个模型自我认同的产物。

为什么 97% 的批准率应该引起警惕，而不是撒花庆祝

从数字本身开始。97% 的批准率与两种截然不同的情况是一致的：一种是子智能体非常优秀，另一种是审查者无法区分计划的好坏。单凭数据无法区分这两者。你需要一个单独的信号——一个经过校准的基准——来了解你处于哪种情况。大多数团队从未产生过这种信号，因此他们将高批准率视为质量指标并发布了。

这个陷阱在于，高批准率感觉像是证据。它来自一个结构上独立的审查步骤——不同的流程、不同的调用、不同的角色标签。在编排层，这种独立性是真实的。但在真正重要的层面，即模型认为什么是“好计划”的层面，这种独立性并不存在。提案者和审查者共享一个模型、共享一个训练分布，并共享大部分提示词。他们不是两个法官，而是同一个法官对同一个问题看了两次。

最近关于多智能体委员会的研究为这种系统内部的形态命名。在 100 个 GSM8K 问题中，从同一个基础模型实例化的三个智能体在不同提示词下的推理平均余弦相似度为 0.888。作者称之为“表示坍缩”（representational collapse）。不同的角色，相同的内部轨迹。无论提案者认为什么是好答案，审查者也会认为那是好答案，因为它们在相同的输入上运行相同类型的计算。

关于“LLM 作为裁判”（LLM-as-a-judge）的独立文献从评估的角度识别了这一点的对立面。当一个模型判断自己的输出时，它会以一种无法归结为真实质量差异的方式偏向它们——这是一种与自我识别相关的自我偏好偏差，且在不同架构中普遍存在。供应商层面的家族偏差加剧了个体效应：对 Claude 输出进行评分的 Claude 裁判会系统性地给出高分，而这种方式是针对每个模型的偏差数据无法捕捉到的；将裁判切换到不同的供应商可以消除大部分差距。你的主管智能体在编排层也在做同样的事情，只不过你没有测量它。

子智能体优化的计划空间正是主管奖励的计划空间

这个机制值得明确说明。子智能体通过从模型中采样来生成计划。以提示词为条件，模型将概率质量集中在提示词使其更有可能的计划空间区域。主管通过从同一个模型中采样来给计划评分，条件是近乎相同的提示词。主管的评分函数是该计划在主管提示词下模型的似然度。子智能体的计划分布是该计划在子智能体提示词下模型的似然度。两个分布在同一个计划空间上，源自相同的参数，并受限于共享大部分文本的提示词。

在主管看来得分很高的计划，从预期来看，很可能就是子智能体会生成的计划。子智能体的计划落入主管高似然度的计划空间区域，不是因为它们很优秀，而是因为它们是该模型在这种形式的提示词下生成的典型产物。主管的审查不是独立的校验，而是同一个模型对已经说过的话表示赞同。97% 的批准率不是对质量的衡量，而是对两个角色共享了多少提示词概率质量的衡量。

这就是为什么“我们为主管使用了不同的系统提示词”救不了你的原因。角色补充说明只改变了一个段落。主管使用的准则、期望的格式、知道要寻找的失败模式——提示词的大部分内容都是共享的，因为你只编写了一次模板并将其专门化了两次。模型决策的内部是由共享部分主导的。角色补充说明只是同一个评估者戴上的一顶帽子。

真正的独立审查是什么样的

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

那个因为共享 Prompt 模板而对子代理盲目“盖章”放行的监督代理

为什么 97% 的批准率应该引起警惕，而不是撒花庆祝

子智能体优化的计划空间正是主管奖励的计划空间

真正的独立审查是什么样的

Recommended Reading

关于 Tian Pan

为什么 97% 的批准率应该引起警惕，而不是撒花庆祝​

子智能体优化的计划空间正是主管奖励的计划空间​

真正的独立审查是什么样的​

Recommended Reading

关于 Tian Pan

为什么 97% 的批准率应该引起警惕，而不是撒花庆祝

子智能体优化的计划空间正是主管奖励的计划空间

真正的独立审查是什么样的