跳到主要内容

领域专用 Agent 架构:为什么通用 Agent 在高风险垂直行业表现不佳

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个能够总结合同、起草产品规范和编写 SQL 查询的通用 AI 智能体确实令人印象深刻——直到你将其部署到放射科,并发现它建议了听起来合理但却与患者实际药物过敏史相冲突的剂量。这种失败并非幻觉问题,而是架构问题。

大多数智能体演示中隐含的假设是:足够强大的基础模型加上广泛的工具集,就等于在任何领域都胜任的智能体。而在实践中,这一假设与生产现实之间的差距,正是导致患者受伤、诉讼产生以及实验结果不可复现的根源。通用智能体是一个合理的起点,而非终点。

具体的性能差距

专业化的证据并非停留在理论层面。一项针对临床医学领域 AI 智能体的系统性回顾发现,与没有配备专业工具的同一基准 LLM 相比,配备了专业医疗工具的智能体性能提升中位数为 53 个百分点。在各项研究中,根据任务的复杂程度和对齐情况,性能提升幅度从 3.5% 到超过 76% 不等。

这些数字衡量的并不是智能体能否正确回答医学常识。它们衡量的是其在临床任务中的表现——药物剂量建议、基于电子健康记录(EHR)的诊断推理、治疗决策的证据检索。在这些任务中,出错会带来严重的后果。

法律领域也表现出类似的结构性分歧。单智能体法律系统在不同法律子领域(如合同法、税法、劳动法和诉讼策略)中表现出研究人员所描述的“泛化能力差”——每个领域都需要不同的推理模式、知识来源和验证标准。一个在合同条款提取方面表现尚可的系统,在跨司法管辖区的合规问题上往往会失败,因为这两个任务除了语言之外几乎没有任何共同点。

科学研究智能体面临着一个复合问题:通用智能体缺乏基础背景(grounding),无法判断中间推理步骤是否违反了领域约束。在化学或生物学中,一个听起来合理但违反物理原理的推论可能会使整个实验设计失效。如果没有特定领域的验证检查点,智能体就会在一个错误的基石上继续构建。

为什么通用方案会失败:三个根本原因

工具选择能力随通用性增加而退化。 当一个智能体可以使用广泛且未分类的工具集时,它选择正确工具的能力会大幅下降。在医疗场景下,GPT-4 在工具调用决策方面的准确率达到 87.5%。而 Mixtral-8x7B 在相同任务上的准确率则降至 7.8%。这种差距至关重要,因为通用智能体中的工具选择错误可以通过重试来恢复,但在临床智能体中,工具选择错误可能意味着药物相互作用检查被完全跳过。

未经筛选的知识注入会导致“自信的错误”。 基于广泛互联网数据训练的通用智能体吸收的是统计关联,而非因果机制。在医学领域,这意味着它们可能生成语法正确但在语义上对特定患者具有灾难性的药物相互作用指导。在法律领域,它们可能会引用适用于联邦法院但不适用于相关司法管辖区的判例。模型不知道它不知道什么,其置信度也无法反映领域有效性。

在严苛领域,可解释性要求是不可逾越的底线。 临床医生无法接受无法追溯来源的诊断建议。律师助理不能在没有归属证明的情况下提出法律论据。通用智能体产生的是输出,而专用智能体产生的是带有出处(provenance)的输出。其区别在于,前者是辅助专业判断的工具,而后者则是责任风险的产生器。

三种有效的模式

分层专家子智能体

编排者-专家(orchestrator-specialist)模式将战略分解与领域执行分开。编排者接收顶层任务,将其分解为子任务,并分发给相应的专家智能体,最后汇总结果。每个专家智能体都是专注的:比如临床药理学专家、法律判例研究员或统计验证智能体。

在医疗背景下,这种架构的证据表明,在收益递减之前,大约 5 个智能体是最佳的团队规模。超过这个规模,协调开销和跨智能体边界的错误传播就会开始抵消专业化带来的性能提升。这个数字并非绝对,但它是一个有用的约束条件:为重要的环节进行专业化,而不是为每一个可能的子任务。

抵押贷款行业提供了一个具体的生产基准。与之前的“人机协作”工作流相比,用于贷款处理的多智能体编排实现了 20 倍的审批周期缩短和 80% 的成本降低。这是一个具有严格合规要求的高风险金融领域——正是通用智能体难以应付的环境。关键在于将工作流分解为专门负责文件验证、信用评估、监管合规检查和欺诈检测的专家智能体,每个智能体都拥有专门构建的工具访问权限。

领域特定的工具服务器

一个调用通用搜索 API 的通用智能体,与一个调用 PubMed 并进行结构化医疗实体提取的临床智能体,或者一个查询按司法管辖区和法院层级过滤的判例法数据库的法律智能体是完全不同的。

这种区别至关重要,因为工具设计决定了推理质量。当工具返回非结构化结果时,智能体必须对其进行解读。而当工具返回结构化、经过验证且符合领域需求的结果时,智能体可以在“纯净信号”上进行推理。在医疗和法律生产环境中部署过智能体的团队一致报告称,他们在优化工具服务器上花费的时间比优化提示词(Prompts)还要多——而且工具质量改进带来的 ROI 超过了其他任何手段。

领域特定的工具服务器还实现了一种关键的安全模式:工具层的防错(Poka-yoke)约束。医疗工具服务器可以在智能体采取行动之前拒绝针对禁忌药物组合的查询,无论编排模型(LLM)做出了什么决定。在工具层强制执行意味着智能体的推理失败不会传播到产生实际后果的行动中。

精选知识注入

有三种行之有效的方法,它们解决了不同的问题:

针对行为专业化进行微调(Fine-tuning)。 当你需要一致的输出格式(如结构化临床笔记、法律备忘录、科学引文)时,微调会将这种行为植入模型层面。其缺点是过度专业化:一个针对皮肤科笔记微调的模型在心脏科问题上可能表现不佳。采用两阶段微调——先是通用领域,然后是特定子领域——可以缓解这一问题,但会增加成本。

利用 RAG 获取最新的、可追溯的知识。 法律和医疗知识是不断变化的。每天都有新的判例法出台。临床指南每季度更新一次。微调模型只是一个快照。而在精选且持续维护的语料库上进行 RAG 则是一个活的知识库。比较医疗环境下各种方法的研究发现,RAG 以及“微调 + RAG”的组合在表现上始终优于单纯的微调,特别是考虑到及时性和可追溯性的优势。

将专家规则编入代码作为验证门控。 这是目前团队利用率最低的模式。领域专家通常能清晰表达绝不应违反的规则——药物禁忌列表、司法管辖区的备案要求、实验对照标准。这些规则可以被编码为可执行的验证逻辑,与 LLM 的输出并行运行,在违规行为触达用户之前将其拦截。一项医疗 AI 研究表明,将微调、RAG 和编入代码的专家规则结合使用,比单纯的 RAG 基准在输出质量上提升了 206%

什么时候专业化值得这些额外成本

专业化会带来实际成本:精选知识库需要维护,专业智能体的编排会增加延迟和复杂性,而领域特定的微调需要通常造价昂贵的标注数据。

是否选择专业化应该由四个问题驱动:

出错的下游后果是什么? 如果错误在造成伤害之前就能被发现——例如客户服务智能体建议了错误的产品,用户试用后退货——那么通用智能体通常就足够了。但如果错误在人工审核之前就触达了患者、客户或实验数据,那么专业化就是必选项。

你的领域是否有监管可解释性要求? 临床 AI、财务建议和法律建议正日益受到审计要求的约束。一个无法将其输出追溯到来源的智能体无法满足这些要求,无论它多么准确。

领域知识的变化频率如何? 静态知识领域(历史判例法分析、成熟的科学方法论)适合进行微调。快速变化的领域(当前的监管解读、最近的临床试验结果)则需要基于 RAG 的方法,以便在无需重新训练的情况下进行更新。

你的查询量是多少? 微调的前期成本很高,但在大规模运行下的单次查询成本较低。RAG 的前期成本较低,但有持续的检索基础设施开销。在高查询量下,微调的经济效益更好。在低查询量下,RAG 通常是更好的起点。

有一个门槛经常让团队栽跟头:假设一个足够强大的通用模型可以在高风险领域替代专业化。GPT-4 达到 87.5% 的工具调用准确率是一个了不起的基准。但在每天处理数千次决策的临床环境中,12.5% 的失败率是不可接受的——而且无论如何扩展模型能力,都无法弥补一个不包含正确结构、正确信息的知识库所带来的缺陷。

没人提及的组织问题

构建专业智能体需要深耕某个领域。你的团队中需要有人理解智能体需要知道什么、它的失败模式是什么,以及验证标准是什么。在医疗 AI 中,这意味着医生或药剂师。在法律 AI 中,这意味着律师。在科学 AI 中,这意味着领域科学家。

这是专业化真正的额外开销:它主要不是计算或数据问题。它是一个“知识提取”问题。那些能成功将专业智能体推向生产环境的团队,通常是将领域专家视为共同设计者,而非仅仅是需求来源。领域专家需要参与工具设计、评估(eval)构建和验证规则的编写,而不仅仅是在事后被要求审查输出结果。

这种开销的另一面是防御性(护城河)。通用智能体易于构建,也易于复制。一个拥有详尽药物相互作用知识库、一套精选临床工具和经过领域验证的评估套件的医疗智能体,代表了数月的专家协作成果,这是通过简单地给基础模型指向一个新的系统提示词所无法复制的。专业化所构建的护城河,是单纯的提示词工程(Prompt Engineering)无法实现的。

针对特定领域的切入点

如果你正在评估是否要进行专业化:

  • 在调整智能体架构之前,先从评测(eval)构建开始。建立一个包含 50-100 个领域特定测试用例的数据集,并附带领域专家的标准答案(ground-truth)。用你目前的通用型智能体运行这些测试。通过失败模式分析,你将明确知道应该从哪种专业化模式入手。
  • 对现有智能体进行监测,以捕获其失败的环节。工具选择错误预示着需要领域特定的工具服务器;知识性错误则指向 RAG;行为不一致则意味着需要微调。大多数系统最终都需要这三者,但目前的瓶颈各不相同。
  • 在上线前考虑监管风险。医疗、金融和法律领域有着不断演进的 AI 特定责任标准。从一开始就构建可解释性和审计追踪的运营成本,要低于在合规性审查后再进行补救。

通用型智能体只是一个起点。对于高风险的垂直领域,问题不在于是否要专业化,而在于哪种专业化模式更契合你所在领域的失败模式、知识更新频率和监管背景。那些将此视为“通用型 vs. 专业化”之间“自研还是采购”问题的团队,通常是以高昂的代价才发现通用型智能体的局限性。

References:Let's stay in touch and Follow me for more thoughts and updates