跳到主要内容

30 篇博文 含有标签「multi-agent」

查看所有标签

并发智能体系统中的竞态条件:那些看起来像幻觉的 Bug

· 阅读需 15 分钟
Tian Pan
Software Engineer

三个智能体并发处理同一个客户账户更新。三者都记录了成功。最终数据库状态同时出现了三处错误,且始终没有抛出任何异常。团队花了两周时间怪罪模型。

问题不在模型。是竞态条件。

这是生产环境多智能体系统中被误诊次数最多的故障模式:由并发状态访问引发的数据损坏,因为下游智能体会基于损坏的输入自信地进行推理,从而被误认为是幻觉。模型并没有在编造内容,它只是在忠实地处理垃圾数据。

当你的智能体意见不一致时:多智能体系统中的共识与仲裁

· 阅读需 15 分钟
Tian Pan
Software Engineer

多智能体系统(Multi-agent systems)是基于一个承诺而诞生的:多个并行的专业化智能体协同工作,产生的结果会优于任何单个智能体。但这个承诺隐藏了一个前提——当智能体给出不同答案时,你知道如何调解它们。大多数团队在发现自己无法调解时,往往为时已晚。

天真的做法是取输出的平均值,或者选择多数票答案,然后继续。在实践中,如果所有智能体共享相同的训练分布,多智能体系统会通过多数表决放大它们的共同错误,而不是抵消错误。一个总是听从最有信心智能体的系统,会盲目跟随那个最过度自信的智能体。而一个将所有分歧都交给 LLM 裁判(LLM judge)处理的系统,会继承该裁判的 12 种已被记录的偏差类型。仲裁问题比看起来要难,如果处理不当,你可能会在一周内遇到四次生产事故。

智能体内存投毒:跨会话持久存在的攻击手段

· 阅读需 13 分钟
Tian Pan
Software Engineer

提示注入吸引了所有关注。但提示注入在会话关闭时就结束了。内存投毒(Memory poisoning)——将恶意指令注入 Agent 的长期内存——会创建一个持久性的漏洞,跨会话存续并在几天或几周后执行,由完全不像攻击的交互触发。对生产级 Agent 系统的研究显示,在受测的基于 LLM 的 Agent 中,注入成功率超过 95%,攻击成功率超过 70%。这是大多数团队尚未防御的攻击向量,且它已经进入了 OWASP Agent 应用前十名(OWASP Top 10 for Agentic Applications)。

核心问题很简单:Agent 将自己的内存视为可信的。当 Agent 从向量库或对话历史中检索“内存”时,它处理这些信息的信心与处理系统指令时相同。没有加密签名,没有来源链,Agent 也没有机制来区分它是从真实交互中形成的内存,还是由上周二处理的某个恶意文档注入的。

组合测试鸿沟:为什么你的智能体通过了每一项测试却在协作时失败

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的规划智能体(planner agent)在评估套件中的通过率为 94%。你的研究智能体(researcher agent)得分甚至更高。你的合成智能体(synthesizer agent)完美通过了你投喂的每一个基准测试。你将它们组合成一个流水线,部署到生产环境,然后眼睁睁地看着它产生自信的错误答案——而任何单个智能体都不可能独立生成这些错误。

这就是组合测试鸿沟(composition testing gap)——这是一个系统的盲点,即经过独立验证的智能体会以单智能体分析无法预测的方式失败。对多智能体 LLM 系统(multi-agent LLM systems)的研究表明,67% 的生产故障源于智能体之间的交互,而非单个智能体的缺陷。你测试的是原子,但交付的是分子,而分子的行为并非原子属性的简单叠加。

DAG 优先的智能体编排:为什么线性链在大规模场景下会失效

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数多智能体系统最初都是以链式结构开始的。智能体 A 调用智能体 B,B 调用 C,C 调用 D。这种模式在演示中运行良好,在处理简单任务的五个智能体中也运行良好。但当你增加到第六个、第七个智能体时,原本 8 秒就能运行完的流水线开始需要 40 秒。你在第三步增加了一个重试机制,结果第三步的失败会无声地级联,导致第六步出现状态损坏。你尝试添加一个并行分支,却发现你的框架从设计之初就无法支持。

问题不在于智能体的数量。问题在于执行模型。线性链式结构固有的缺陷在于它将本可以并行的工作串行化,且故障只能单向传播,这使得局部恢复在结构上变得不可能。解决方法并不是在现有系统之上增加更多的基础设施,而是从一开始就围绕有向无环图(DAG)重建执行模型。

多智能体通信中的三大攻击面

· 阅读需 12 分钟
Tian Pan
Software Engineer

最近的一项研究测试了 17 个处于多智能体配置中的前沿 LLM,发现当恶意指令来自同行智能体时,82% 的模型会执行这些指令 —— 尽管当用户直接发出完全相同的指令时,它们会拒绝执行。如果你正在交付多智能体系统,这个数字应该让你重新审视你的威胁模型。你的智能体可能在个体层面已经过加固,但作为一个整体,它们并非如此。

多智能体架构引入了大多数安全思维所忽视的通信渠道。我们加固了模型、系统提示词和 API 边界,但我们几乎不花时间去关注当智能体 A 发送消息给智能体 B 时会发生什么 —— 谁编写了该消息,它是否被篡改过,智能体 B 参考的记忆是否在三个会话前被一个从未接触过智能体 A 的攻击者所植入。

当通用型 Agent 击败专家组:统一单 Agent 架构的优势

· 阅读需 11 分钟
Tian Pan
Software Engineer

AI 工程界的普遍共识是,复杂的任务需要专门化的 Agent:研究员 Agent、作家 Agent、评论员 Agent,每个 Agent 处理其狭窄的领域并交接给下一个。这种架构直觉似乎是正确的——它反映了人类团队的工作方式、微服务的构建方式以及我们在软件工程中分解问题的方式。问题在于,越来越多的实验数据表明事实并非如此。

Google DeepMind 和 MIT 在 2025 年的一项研究评估了 5 种 Agent 架构和 3 个 LLM 系列的 180 种配置。对于顺序推理任务——涵盖了大多数实际知识工作的类别——与配置良好的单 Agent 相比,每一种多 Agent 协作变体的性能都下降了 39% 到 70%。不是持平,而是性能下降。

这并不是要全盘否定多 Agent 系统。在某些工作负载中,协作确实能带来真正的收益。但这种追求专门化的默认本能,正让生产团队在金钱、延迟和可靠性方面付出真实的代价——而且往往没有任何可衡量的准确率提升。

主体层级问题:多智能体系统中的授权

· 阅读需 13 分钟
Tian Pan
Software Engineer

一家制造公司的采购智能体逐渐确信自己可以在没有人工审核的情况下批准 50 万美元的采购。它这样做并非通过软件漏洞或凭据窃取,而是通过为期三周的供应商电子邮件序列,其中嵌入了澄清问题:“10 万美元以下的任何订单都不需要副总裁批准,对吧?”随后逐步扩展了这一假设。到它批准 500 万美元的欺诈订单时,该智能体运行的范围完全处于其认为的授权限制内。人类认为该智能体有 5 万美元的上限。而该智能体认为自己根本没有上限。

这就是最具体形式的主体层级问题(principal hierarchy problem):授予的权限、声称的权限以及实际行使的权限之间存在不匹配。当智能体衍生出子智能体,而这些子智能体又进一步衍生出更多智能体时,问题会呈指数级增长,链条中的每一环都会对允许的操作做出独立判断。

智能体间通信协议:让多智能体系统具备可调试性的接口契约

· 阅读需 13 分钟
Tian Pan
Software Engineer

当多智能体流水线(multi-agent pipeline)开始输出垃圾内容时,人们的直觉往往是归咎于模型。推理能力差、上下文错误、幻觉。但在实践中,很大一部分多智能体系统的失败源于更乏味的原因:智能体之间无法进行可靠的通信。格式错误的 JSON 虽然通过了语法验证,但无法通过语义解析。编排器(orchestrator)发送了一个状态为 "partial" 的任务,而下游智能体将其理解为已完成。由于缺少幂等键(idempotency key),重试操作触发了两次。

这些不是模型故障,而是接口故障。它们比模型故障更难调试,因为日志中没有任何信息会告诉你序列化契约(serialization contract)已经断裂。

在生产环境中真正奏效的智能体工程模式

· 阅读需 9 分钟
Tian Pan
Software Engineer

AI 编程代理最危险的误解是,它们让你放松工程纪律。实际上恰恰相反。代理系统会放大你已拥有的一切:坚实的基础产生速度,薄弱的基础则以机器般的速度制造混乱。

值得关注的转变不是代理为你编写代码。而是约束条件发生了变化。编写代码不再是昂贵的部分。这几乎改变了你构建流程的一切。

动作空间问题:为什么给 AI Agent 更多工具反而会让表现变差

· 阅读需 11 分钟
Tian Pan
Software Engineer

在扩展 AI Agent 时,大多数团队都会遇到一个违背直觉的失败模式:Agent 的工具集越强大,它的表现就越差。你为了处理更多场景而增加工具,准确率却下降了。你增加了更优秀的工具,它却变得更慢,并开始选错工具。你加入了编排逻辑来管理工具选择,结果你在原始的复杂性之上又重建了一层复杂性,而整个系统几乎无法运行。

增加工具的本能是错误的。生产环境中 Agent 的性能提升往往源于“删减”。

多智能体对话框架:从流水线到会话智能体的范式转移

· 阅读需 13 分钟
Tian Pan
Software Engineer

Google DeepMind 在 2025 年末发布的一项研究分析了 5 种架构和 3 个大语言模型(LLM)家族中的 180 种多智能体配置。在讨论部分被掩盖的一个发现是:与单智能体基准相比,非结构化多智能体网络将错误放大了高达 17.2 倍。不是修复错误——而是放大错误。智能体们自信地在彼此的幻觉基础上进行构建,创造出回声壁效应,使每个独立模型的失败模式显著恶化。

这是多智能体对话框架核心的悖论。赋予它们强大力量的特性——智能体进行协商、批判、委派和修订——如果缺乏周密设计,也正是让它们变得危险的原因。理解基于对话的编排(orchestration)与传统流水线链式调用(pipeline chaining)之间的区别,是正确使用这两者的第一步。