320 篇博文含有标签「ai-agents」

Agent 测试金字塔：为什么 70/20/10 的分层对 Agentic AI 行不通

2026年4月15日 · 阅读需 14 分钟

Software Engineer

每一个从"我们有个聊天机器人"升级到"我们有个 Agent"的工程团队，都会撞上同一堵墙：他们的测试套件开始失去意义。

经典测试金字塔——70% 单元测试、20% 集成测试、10% 端到端测试——建立在三个基本假设之上：单元测试运行成本低、与外部系统隔离、结果确定可重复。Agentic AI 系统同时打破了这三个假设。所谓的"单元"是一次消耗 token 且每次返回不同结果的模型调用。一次端到端运行可能耗时数分钟，消耗的 API 预算足以让一位初级工程师整个迭代周期的测试都无法证明其合理性。而隔离性几乎无从实现，因为 Agent 的智能恰恰来自于与外部工具和状态的交互。

智能体审计追踪：自主决策时代的合规之道

2026年4月15日 · 阅读需 13 分钟

Tian Pan

Software Engineer

当一位人工贷款官员拒绝一份申请时，这个决定背后有一个具体的名字。这位官员接收了特定信息，经过深思熟虑后做出了行动。推理过程或许并不完美，但它是可归因的——有人可以被联系、被质询、被追责。

当一个 AI 智能体拒绝同一份申请时，留下的只有一条数据库记录。这条记录表明决定已做出，但没有说明原因，没有说明是什么输入驱动了这个决定，没有说明当时运行的是哪个版本的模型，也没有说明系统提示词是否在两周前悄悄更新过。当你的合规团队将这条记录交给监管机构时，监管机构不会满意。

这就是智能体审计追踪问题，而大多数构建 AI 智能体的工程团队至今尚未解决它。

AI Agent 权限蔓延：无人审计的授权债

2026年4月15日 · 阅读需 12 分钟

Tian Pan

Software Engineer

在试点项目结束六个月后，你的客户数据智能体仍然拥有对生产数据库的写入权限，而它自第一周以来就没再触碰过这些数据库。没有人恶意授予这种访问权限，但也没有人将其撤销。这就是 AI 智能体权限蔓延 (AI agent permission creep)，它现在已成为生产级智能体系统中授权失败的首要原因。

这种模式显而易见：智能体最初拥有一套最小权限集，随着集成的扩展（“只为这个工作流添加 Salesforce 的读取权限”），部署后的权限收紧步骤被无限期推迟。与人类身份与访问管理 (IAM) 中至少在名义上强制执行的季度访问审查不同，智能体身份完全处于大多数组织访问审查流程之外。《2026 年企业基础设施安全中的 AI 现状报告》（调查对象为 205 位 CISO 和安全架构师）发现，70% 的组织授予 AI 系统的访问权限超过了同角色的员工。拥有过度特权 AI 的组织报告的安全事件发生率为 76%，而执行最小权限原则的团队仅为 17% —— 两者相差 4.5 倍。

环境 AI 设计：当聊天界面是错误的抽象时

2026年4月15日 · 阅读需 9 分钟

Tian Pan

Software Engineer

大多数工程团队默认将 AI 功能构建为聊天界面。用户输入内容，模型做出响应。这种模式感觉很自然，因为它映射了人类的对话，而且工具链也让实现变得简单。但当你观察生产环境中的这些基于聊天的 AI 功能时，你经常会看到同样的功能失效：用户界面处于闲置状态，等待着那些太忙、太分心或根本不知道该问什么的用户。

聊天是一种“拉取”（pull）模式。由用户发起，AI 做出反应。对于任何产品中具有价值的 AI 工作的一个重要子集——监控、异常检测、工作流自动化、主动通知——“拉取”模式都是错误的形态。无论用户是否记得打开聊天窗口，这些工作都需要进行。

异步 Agent 的静默失败：为何你的 AI 任务悄然终止却无人察觉

2026年4月15日 · 阅读需 9 分钟

Tian Pan

Software Engineer

异步 AI 任务有一个传统后台 Worker 没有的问题：它们会静默而自信地失败。一个文档处理 Agent 返回 HTTP 200，输出格式规整的结果，然后继续执行——而实际输出却悄悄出错了：可能不完整，可能建立在三步前幻觉出的事实上。你的仪表盘依然绿色，值班工程师照常入睡，客户最终才发现异常。

这不是边缘情况，而是未经可观测性设计的异步 AI 系统的默认行为。让传统分布式系统中后台作业队列保持可靠的工具——死信队列、幂等键、Saga 日志——同样适用于 AI Agent。但失败模式足够不同，需要做一些"翻译"。

AI Agent 的 CAP 定理：为何你的 Agent 在本该优雅降级时却彻底崩溃

2026年4月14日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的 AI Agent 运行得一切正常，直到某一刻它彻底不行了。某个工具宕机——也许是搜索 API 触发了限流，也许是数据库响应迟缓，也许是代码执行沙箱超时——整个 Agent 随之崩溃。不是部分答案，不是降级响应，而是彻底失败。要么一片空白，要么满是幻觉。

这不是一个 Bug，而是一个设计选择——而且几乎没有人是刻意做出这个选择的。我们今天所构建的 Agent 架构隐式地选择了"彻底失败"，原因只有一个：没有人设计过部分可用路径。如果你有分布式系统的经验，这个模式应该让你感到似曾相识。这正是 CAP 定理，以一副新的面孔出现了。

级联上下文污染：为何一个错误事实就能毁掉整个 Agent 运行

2026年4月14日 · 阅读需 9 分钟

Tian Pan

Software Engineer

你的 Agent 完成了一个 25 步的研究任务。最终报告看起来很精美，引用也能对上，推理链条看似连贯。但 Agent 在第 3 步幻觉了一家公司的创立年份，而后续的每一个推断——市场时机分析、竞争定位、增长轨迹——都建立在那个错误的日期上。输出结果自信地、系统性地错了，而你的流水线中没有任何环节捕捉到这个问题。

这就是级联上下文污染：一个错误的中间结论通过后续的推理步骤和工具调用不断传播，最终演变成系统级故障。这是长时运行 Agent 中最危险的失败模式，因为它看起来像是成功的。

制度性知识流失：AI Agent 如何在不传递理解的情况下吸收决策

2026年4月14日 · 阅读需 11 分钟

Tian Pan

Software Engineer

在一个金融科技团队推出 AI 编程智能体来处理日常后端任务的三个月后，一位资深工程师离职去了另一家公司。当团队试图还原六周前做出某些身份验证决策的原因时，却发现没有人能做到。PR 描述写着“按讨论实现”，提交信息写着“根据需求”。AI 智能体做出了选择，代码正常运行，而背后的推理过程却消失得无影无踪。

这并非文档记录的失败。当原本用于传递理解的渠道——工程师之间的往复沟通、解释带来的摩擦、向他人证明决策合理性的压力——被一个优化输出而非优化理解的系统所取代时，必然会发生这种情况。

MCP 就是新一代的微服务：AI 工具生态正在重蹈分布式系统的覆辙

2026年4月14日 · 阅读需 9 分钟

Tian Pan

Software Engineer

如果你经历过 2015–2018 年的微服务爆发期，那么 MCP 的现状应该会让你感到不安的熟悉。一个真正有用的协议出现了。它很容易搭建。每个团队都搭建了一个。没有人追踪什么在运行、谁负责维护、如何保障安全。不到十八个月，你就会盯着一张工程师私下称为"死星"的依赖关系图。

Model Context Protocol 正在沿着同样的轨迹发展，速度大约是三倍。非官方注册中心已经索引了超过 16,000 个 MCP 服务器。GitHub 上有超过 20,000 个公开仓库在实现它们。Gartner 预测到 2027 年 40% 的 agentic AI 项目将失败——不是因为技术不行，而是因为组织在自动化有缺陷的流程。MCP 泛滥正是这个问题的症状。

幽灵工具调用：当AI智能体调用不存在的工具

2026年4月14日 · 阅读需 9 分钟

Tian Pan

Software Engineer

你的智能体通过了所有单元测试，完美处理了正常路径，然后在某个周二下午，它试图调用 get_user_preferences_v2——一个在你的代码库中从未存在过的函数。这个调用在语法上看起来完全正确。参数也很合理。唯一的问题是，你的智能体凭空捏造了这一切。

这就是幽灵工具调用：一种不表现为错误文本而表现为错误操作的幻觉。与人类可能在审查中发现的事实幻觉不同，幽灵工具调用会直接命中你的运行时，抛出一个晦涩的 ToolNotFoundError，并使原本运行正常的多步骤工作流脱轨。

当数据库迁移悄然摧毁 AI Agent 的世界模型

2026年4月14日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的团队在周二执行了一次常规数据库迁移——将 last_login_date 重命名为 last_activity_ts，并扩展其语义以包含 API 调用。没有服务中断。测试通过。仪表盘更新。但你的 AI Agent——那个回答客户关于用户活跃度问题的 Agent——开始悄悄给出错误答案。没有报错，没有告警，没有堆栈跟踪。它只是自信地基于一个已经不存在的世界进行推理。

这就是 AI 工程中几乎无人关注的 Schema 迁移问题。你的 Agent 从工具描述、few-shot 示例和检索上下文中构建了一个隐式的数据模型。当底层 Schema 发生变化时，这个模型就变成了谎言——而 Agent 没有任何机制来检测这种矛盾。

拟人化税：为什么把 Agent 当同事对待会搞坏生产系统

2026年4月14日 · 阅读需 11 分钟

Tian Pan

Software Engineer

一支工程团队构建了一个处理客户请求的 Agent。演示效果非常好。他们将其部署上线。三周后，这个 Agent 悄无声息地以十足的自信向用户传达错误信息，在上下文变长时跳过步骤，还会在模糊输入上偶尔陷入死循环。事后复盘发现，团队从未构建重试逻辑，从未验证输出，也从未定义 Agent 在不确定时该怎么做。当被问及原因，答案耐人寻味："我们以为它会自己处理那些边缘情况。"

"我们以为它会自己处理那些边缘情况"——这句话将拟人化税表露无遗。团队设计这个系统的方式，就像管理一名初级开发者：简要说明任务，信任其判断，等它举手求助时再纠正。但 LLM Agent 不会举手。它们只是生成下一个 token。

关于 Tian Pan