智能体链中的认知信任：不确定性如何在多步委托中累积

2026年5月5日 · 阅读需 11 分钟

Software Engineer

大多数构建多智能体系统的团队，把大量时间花在授权信任上：智能体 B 被允许执行哪些操作、可以调用哪些工具、能访问哪些数据。这是一个重要的问题。但还有第二个信任问题同样关键，却鲜少得到足够重视——而正是它在实际生产系统中造成严重故障。

这个问题是认知层面的：当智能体 A 将任务委托给智能体 B 并收到答案时，A 应该在多大程度上相信 B 返回的内容？

这不是 B 是否被授权回答的问题，而是 B 是否真的有能力回答的问题。

子智能体的可靠性取决于编排器无法直接观察的因素：内部运行的是哪个模型层级、它能访问多少上下文、工具是否配置正确，以及所承接的任务是否在其能力范围之内。当编排器在接受子智能体输出时不考虑这些因素，它继承的不只是答案——还有错误，并将这些错误叠加进后续的推理步骤中。

让多智能体系统崩溃的数学

叠加问题直观却容易低估。单个智能体在每步准确率 99% 的情况下，10 步链的可靠性会跌至 90.4%。若每步准确率为 95%——对大多数真实任务而言已属优秀——10 步链的可靠性仅剩 59.9%，20 步时更只有 35.8%。

实测数据让情况更加严峻。在隔离任务上低于 1% 的幻觉率，在 100 步的智能体流水线中会膨胀至 63% 的失败率。Google Research 对 180 个智能体配置的研究发现，独立多智能体网络的错误放大倍数高达 17.2 倍，远超单智能体基线。引入共享上下文的集中协调机制后，这一倍数降至 4.4 倍——仍然显著，但尚在可控范围。

对七个开源多智能体框架中 1642 条执行轨迹的分析显示，失败率从 41% 到 86.7% 不等，其中协调失效占所有失败的 36.9%。演示成功率约 60%；而同一系统若要稳定通过 8 次运行测试，成功率将跌至 25%。

这些问题的根源不在于提示工程。它是结构性的：大多数编排器将子智能体输出视为事实，丢弃了本可用于判断信任、核实或降权的不确定性上下文。

两种信任问题，一个名字

授权信任与认知信任经常被混为一谈，而这种混淆代价高昂。

授权信任问的是：这个智能体是否被允许执行这一操作？这是沙箱隔离、能力限制和访问控制所在的领域，是一个有大量工具支撑的成熟问题。

认知信任问的是：对于这项具体任务，这个智能体是否有能力给出可靠的答案？能力包含多个维度：

模型层级：编排器是否把一个需要 Opus 级推理的复杂任务委托给了 Haiku 级模型？编排器通常对此一无所知。
上下文质量：子智能体是否获得了完整所需的上下文，还是只能基于问题的片段视图作答？
工具范围：分配给子智能体的工具集是否真的适合这个子任务？过于受限的工具列表会导致智能体宁可产生幻觉，也不承认自己无法获取所需信息。
领域契合度：子任务是否在子智能体的工作域之内？LLM 在超出训练分布时出了名地过度自信。生产系统中的预期校准误差（ECE）在 0.108 到 0.427 之间——这意味着智能体对答案表达的置信度，与答案是否正确之间几乎没有关联。

授权信任有二元答案：允许或不允许。认知信任是概率性的、依赖上下文的。上周胜任某任务的智能体，这周面对不同任务时可能以同等的自信失败。

过度自信的陷阱

LLM 天然不表达不确定性。它们被训练来产出流畅、自信的回答——这意味着当子智能体在其能力域之外工作时，它通常不会说"我对此不确定"，而是给出一个听起来合理却恰好有误的答案。

这就是认知信任陷阱：编排器本可用来降低对子智能体信任度的信号——明确的不确定性、对知识局限的承认、关于缺失上下文的警告——恰恰是 LLM 最倾向于压制的内容。

关于 LLM 校准的研究一致发现严重的过度自信。模型可以在基准任务上取得高准确率，而其口头表达的置信度估计在实际部署的任务范围内仍然失准。当子智能体以高度自信返回答案时，这种自信并不是正确性的可靠信号。

在链路中，这一陷阱会层层加深。智能体 A 委托给 B，B 委托给 C，每次交接都剥离了关于上一个智能体知道什么、不知道什么的上下文。智能体 A 最终收到的答案，经过了两轮听起来能干的输出生成的"洗白"，沿途积累的不确定性毫无踪迹。

真正有效的设计模式

在返回模式中加入置信度注解

最直接的解决方案是结构性的：子智能体不要只返回答案，而是返回带注解的答案。在返回模式中加入明确的不确定性元数据，可以改变编排器能推理的内容。

有价值的字段包括：

置信度层级（高 / 中 / 低），基于任务是否在智能体的典型工作范围内
上下文充分性标志，表明智能体是否有完整上下文，或者不得不做了假设
领域匹配信号，表明查询是否落在智能体的主要训练分布内
验证建议，由智能体自身标记其认为答案需要二次核实的场景

这种方法需要对整个智能体系统的接口进行协调——返回原始答案的子智能体需要改造为返回结构化响应。换来的收益是：编排器获得了施加适度怀疑所需的信号。

加载中…

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

智能体链中的认知信任：不确定性如何在多步委托中累积

让多智能体系统崩溃的数学

两种信任问题，一个名字

过度自信的陷阱

真正有效的设计模式

在返回模式中加入置信度注解

Recommended Reading

关于 Tian Pan

让多智能体系统崩溃的数学​

两种信任问题，一个名字​

过度自信的陷阱​

真正有效的设计模式​

在返回模式中加入置信度注解​

Recommended Reading

关于 Tian Pan

让多智能体系统崩溃的数学

两种信任问题，一个名字

过度自信的陷阱

真正有效的设计模式

在返回模式中加入置信度注解