跳到主要内容

智能体链中的认知信任:不确定性如何在多步委托中累积

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数构建多智能体系统的团队,把大量时间花在授权信任上:智能体 B 被允许执行哪些操作、可以调用哪些工具、能访问哪些数据。这是一个重要的问题。但还有第二个信任问题同样关键,却鲜少得到足够重视——而正是它在实际生产系统中造成严重故障。

这个问题是认知层面的:当智能体 A 将任务委托给智能体 B 并收到答案时,A 应该在多大程度上相信 B 返回的内容?

这不是 B 是否被授权回答的问题,而是 B 是否真的有能力回答的问题。

子智能体的可靠性取决于编排器无法直接观察的因素:内部运行的是哪个模型层级、它能访问多少上下文、工具是否配置正确,以及所承接的任务是否在其能力范围之内。当编排器在接受子智能体输出时不考虑这些因素,它继承的不只是答案——还有错误,并将这些错误叠加进后续的推理步骤中。

让多智能体系统崩溃的数学

叠加问题直观却容易低估。单个智能体在每步准确率 99% 的情况下,10 步链的可靠性会跌至 90.4%。若每步准确率为 95%——对大多数真实任务而言已属优秀——10 步链的可靠性仅剩 59.9%,20 步时更只有 35.8%。

实测数据让情况更加严峻。在隔离任务上低于 1% 的幻觉率,在 100 步的智能体流水线中会膨胀至 63% 的失败率。Google Research 对 180 个智能体配置的研究发现,独立多智能体网络的错误放大倍数高达 17.2 倍,远超单智能体基线。引入共享上下文的集中协调机制后,这一倍数降至 4.4 倍——仍然显著,但尚在可控范围。

对七个开源多智能体框架中 1642 条执行轨迹的分析显示,失败率从 41% 到 86.7% 不等,其中协调失效占所有失败的 36.9%。演示成功率约 60%;而同一系统若要稳定通过 8 次运行测试,成功率将跌至 25%。

这些问题的根源不在于提示工程。它是结构性的:大多数编排器将子智能体输出视为事实,丢弃了本可用于判断信任、核实或降权的不确定性上下文。

两种信任问题,一个名字

授权信任与认知信任经常被混为一谈,而这种混淆代价高昂。

授权信任问的是:这个智能体是否被允许执行这一操作?这是沙箱隔离、能力限制和访问控制所在的领域,是一个有大量工具支撑的成熟问题。

认知信任问的是:对于这项具体任务,这个智能体是否有能力给出可靠的答案?能力包含多个维度:

  • 模型层级:编排器是否把一个需要 Opus 级推理的复杂任务委托给了 Haiku 级模型?编排器通常对此一无所知。
  • 上下文质量:子智能体是否获得了完整所需的上下文,还是只能基于问题的片段视图作答?
  • 工具范围:分配给子智能体的工具集是否真的适合这个子任务?过于受限的工具列表会导致智能体宁可产生幻觉,也不承认自己无法获取所需信息。
  • 领域契合度:子任务是否在子智能体的工作域之内?LLM 在超出训练分布时出了名地过度自信。生产系统中的预期校准误差(ECE)在 0.108 到 0.427 之间——这意味着智能体对答案表达的置信度,与答案是否正确之间几乎没有关联。

授权信任有二元答案:允许或不允许。认知信任是概率性的、依赖上下文的。上周胜任某任务的智能体,这周面对不同任务时可能以同等的自信失败。

过度自信的陷阱

LLM 天然不表达不确定性。它们被训练来产出流畅、自信的回答——这意味着当子智能体在其能力域之外工作时,它通常不会说"我对此不确定",而是给出一个听起来合理却恰好有误的答案。

这就是认知信任陷阱:编排器本可用来降低对子智能体信任度的信号——明确的不确定性、对知识局限的承认、关于缺失上下文的警告——恰恰是 LLM 最倾向于压制的内容。

关于 LLM 校准的研究一致发现严重的过度自信。模型可以在基准任务上取得高准确率,而其口头表达的置信度估计在实际部署的任务范围内仍然失准。当子智能体以高度自信返回答案时,这种自信并不是正确性的可靠信号。

在链路中,这一陷阱会层层加深。智能体 A 委托给 B,B 委托给 C,每次交接都剥离了关于上一个智能体知道什么、不知道什么的上下文。智能体 A 最终收到的答案,经过了两轮听起来能干的输出生成的"洗白",沿途积累的不确定性毫无踪迹。

真正有效的设计模式

在返回模式中加入置信度注解

最直接的解决方案是结构性的:子智能体不要只返回答案,而是返回带注解的答案。在返回模式中加入明确的不确定性元数据,可以改变编排器能推理的内容。

有价值的字段包括:

  • 置信度层级(高 / 中 / 低),基于任务是否在智能体的典型工作范围内
  • 上下文充分性标志,表明智能体是否有完整上下文,或者不得不做了假设
  • 领域匹配信号,表明查询是否落在智能体的主要训练分布内
  • 验证建议,由智能体自身标记其认为答案需要二次核实的场景

这种方法需要对整个智能体系统的接口进行协调——返回原始答案的子智能体需要改造为返回结构化响应。换来的收益是:编排器获得了施加适度怀疑所需的信号。

加载中…
Let's stay in touch and Follow me for more thoughts and updates