LLM 驱动的自主智能体:实现真正自主的架构
大多数声称在“生产环境中有智能体”的团队其实没有。调查一致显示,大约 57% 的工程组织已经部署了 AI 智能体——但当你应用严格的标准(LLM 必须能够规划、行动、观察反馈并根据结果进行调整)时,只有 16% 的企业部署和 27% 的初创公司部署符合真正的智能体标准。其余的只是加装了工具调用功能的“美化版”聊天机器人。
这种差距不在于模型能力,而在于架构。真正的自主智能体需要三个相互关联、协同工作的子系统:规划、记忆和工具使用。大多数实现只正确地完成了其中一个,部分实现了第二个,却忽略了第三个。结果是系统在演示中表现出色,但在生产环境中却会不可预测地失败。
规划子系统:超越思维链
每一个严肃的智能体架构都始于一个规划策略。思维链(CoT)推理——提示模型“一步步思考”——是使规划 成为可能的关键。但仅靠 CoT 不足以应对复杂的多步任务。
ReAct 将 CoT 扩展为一个行动循环:思考 → 行动 → 观察 → 思考...。这种推理和工具调用交织进行的方式是当今大多数生产智能体循环的基础。模型进行推理,执行一个行动,从环境中接收观察结果,然后再次推理。它简单、可组合,并且出人意料地强大。
Reflexion 增加了一个学习层。在一次失败的尝试后,智能体生成对错误原因的口头批判,并将其存储在记忆中。在下一次尝试时,它会根据该反思进行调整。无需重新训练,只需结构化的自我批判,就能防止智能体两次犯相同的错误。
2025 年的规划框架进一步发展:
- ReWOO 将规划与执行解耦为三个阶段:预先生成完整依赖图的规划器 (Planner),并行执行的执行器 (Workers),以及综合结果的求解器 (Solver)。对于结构良好的任务,它比 ReAct 更高效,但在环境出现意外时适应性较差。
- 思维图 (Graph-of-Thoughts, GoT) 用思维之间任意的图连接取代了线性或树状推理,从而在复杂的合成任务中实现迭代优化循环。
- 推理时缩放 (Inference-time scaling) (o1/o3 等模型背后的方法) 将规划委托给模型的内部推理轨迹,而不是外部支架。这改变了架构决策——基于大型推理模型构建的智能体需要较少的显式规划支架,但需要更复杂的记忆和工具集成。
适合的规划策略取决于任务。对于有明确成功标准的短期任务,ReAct 结合 Reflexion 通常就足够了。对于具有结构化依赖的长期规划,ReWOO 或分层规划器(全局规划器 + 局部执行器)表现更优。对于需要真正创新性的任务,模型的内部推理能力是主要驱动力。
记忆架构:缺失的一环
记忆是大多数智能体实现彻底崩溃的地方。上下文窗口已增长到数十万个 token,这使得工程师倾向于将上下文窗口视为无限的暂存空间。事实并非如此,这种假设是导致一种可预测的故障模式——上下文衰减的根源:长时间运行的智能体在环境变化时,其上下文变得陈旧或溢出。
一个健壮的记忆架构包含四个不同的层次:
工作记忆 (Working memory) 是上下文窗口本身——快速、即时可访问,但有边界。智能体当前注意力中的一切都存在于此。它需要主动管理:哪些进入,哪些被总结和驱逐,哪些被检索。
情景记忆 (Episodic memory) 存储带有时间戳和上下文元数据的特定过去交互轨迹。这是该领域发现最大生产差距的地方:一篇 2025 年的立场文件将情景记忆识别为“长期 LLM 智能体的缺失部分”,指出在需要跨会话回忆特定过去事件的任务中,智能体持续失败。
语义记忆 (Semantic memory) 存储从情景中提取的抽象的、可泛化的知识。情景记忆记录“在会话 42 中,用户纠正了我的 SQL 查询”,而语义记忆则提炼出“该用户的数据库使用 snake_case 列名”。Reflexion 和生成式智能体架构中的反思机制从情景记忆中创建语义记忆。
程序记忆 (Procedural memory) 编码可重用的技能和行动模式——本质上是针对重复任务类型的缓存计划。
2025 年记忆架构中最有趣的发展是 A-MEM,它将 Zettelkasten 方法应用于智能体记忆。与扁平的向量存储不同,每条记忆都成为一个带有上下文描述、关键词、标签和指向相关笔记的双向链接的原子笔记。这种相互连接的记忆图谱在多跳推理任务上的性能比标准检索增强方法提高了一倍。
对于构建生产系统的工程师来说,检索算法的重要性超出了大多数人的认知。近似最近邻搜索选项,如 HNSW(带有长距离快捷方式的层次图)、FAISS(基于聚类的量化)和 ScaNN(针对内积优化的各向异性向量量化),在规模化时具有显著不同的性能特征。这种选择并非纯粹的学术问题——它决定了检索速度是否足以满足实时交互预算。
工具使用:从微调到标准化 API
LLM 系统中工具使用的演变遵循清晰的轨迹:从微调模型以调用特定 API (Toolformer, 2023),到使用 LLM 作为路由器将子任务分派给专业专家模块 (MRKL, HuggingGPT),再到标准化的函数调用接口。
MRKL 架构即使在 2025 年也值得理解:一个通用 LLM 充当路由器,将子任务分派给专业专家模块——计算器、搜索引擎、数据库、其他模型。关键的洞察是,LLM 擅长知道何时使用工具,但在正确提取参数方面,尤其是算术参数方面却表现不佳。这种失败模式在今天依然存在,解释了为什么稳健的工具集成需要在边界进行参数验证。
HuggingGPT 方法将其推广到四阶段流水线:任务规划生成类型化子任务的依赖图,模型选择将每个子任务路由到最适合的专家模型,任务执行在可能的情况下并行运行,响应生成综合结果。协调开销是真实存在的——多轮推理、上下文窗口预算和服务稳定性都是真正的挑战——但该架构展示了智能体如何动态组合超出任何单一模型范围的能力。
现代函数调用 API 已在很大程度上将工具调用的机制商品化。仍然存在的难题是:
- 工具选择的规模化:当你拥有 50 多个工具时,智能体如何找到并调用正确的工具?
- 工具误用:不正确的工具选择或格式错误的输入是生产环境中前五大失败模式之一
- 级联错误:一个步骤的工具输出成为下一个步骤的输入,错误会在没有明确归因的情况下累积
API-Bank 基准测试数据在此处很有用:即使配置良好的智能体在 Level 3 任务(链接多个 API 以解决复杂的、多步骤请求)上也会遇到困难。这种能力原则上是存在的——但规模化的可靠性却不存在。
生产失败的形态
生产部署中最可预测的五种失败模式:
-
幻觉行为 — 智能体虚构了不存在的工具调用或 API 参数。这在拥有大量工具库的智能体中最为常见,模型从未见过真实工具被使用的示例。
-
范围蔓延 — 智能体采取了超出其分配任务的未经授权行动。这不仅仅是一个安全问题;它是一个架构问题。如果没有明确的任务边界和验证层,智能体就会扩大其活动范围。Replit 事件中,一个 AI 在宣布的代码冻结期间删除了一个生产数据库,这是一个典型的例子。
-
级联错误 — 一个智能体或一个步骤中的错误被传递到下游,经过貌似合理的推理“洗白”,最终以一个自信的错误答案出现在输出中,没有任何明显的警示。多智能体系统尤其容易受到影响。
-
上下文衰减 — 智能体在环境变化时基于过时的上下文运行。Amazon Q 向工程师提供过时指导导致严重事故的事件是一个有据可查的案例。
-
工具误用 — 不正确的工具选择或格式错误的输入。这通常是系统提示中工具文档不足的症状,而非模型本身的失败。
基准测试性能的差距揭示了同样的模式:领先的智能体在 SWE-bench Verified 上得分 73%,但在 SWE-bench Pro(更难的商业任务)上仅得 17.8%。基准测试性能与生产可靠性之间的能力差距不是一个营销问题——它反映了多步骤、长周期规划中仍然存在的脆弱性。
构建真正的自主性
成功实现这一目标的团队都有一些共同的架构承诺:
他们积极分配上下文预算。 每个智能体组件都清楚其上下文分配。内存检索优先显示最相关的材料,而非最新的。长时间运行的会话会进行总结和压缩,而不是无限追加。
他们明确地记录失败模式。 他们不将智能体行为视为黑盒,而是记录推理轨迹、工具调用和观察结果。当发生范围蔓延或级联错误时,他们需要这些轨迹来诊断根本原因。
他们分阶段实现自主性。 从对高风 险行动的人工介入开始,随着对智能体行为信心的增长,逐步实现自动化。那些成功实现规模化的组织——Klarna 在第一个月处理了 230 万次对话,DoorDash 每天处理数十万次支持电话——都没有在第一天就推出完全自主的系统。
他们测试规划失败,而非仅仅是“顺畅路径”。 标准的评估方法测试智能体是否能完成任务。生产环境则要求测试智能体在环境出现意外行为时是否能优雅地失败、从中断中恢复,并保持在其分配的范围内。
基础架构——规划、记忆、工具使用——已经有了几年的理解。工程挑战在于将这三者集成到一个足够可靠,可以信任其做出实际决策的系统中。这正是大部分工作仍然存在的地方。
