780 篇博文含有标签「ai-engineering」

为什么你的智能体在开发中表现完美，在生产中却状况百出

2026年6月1日 · 阅读需 12 分钟

Software Engineer

Agent 演示总是能成功。数据库里有三个客户，一个匹配记录，向量索引中有 12 篇文档，一个带有无限空档的空日历。Agent 选对行，检索到正确的文档，预订好正确的会议。上线吧。

接着，生产环境交给了同一个 Agent 一千万个客户，其中在同一个城市有三个 “John Smith”；一个返回了四千行的过滤器，因为 Agent 本想表达 status = 'active' 时却自信地写成了 status != 'closed'；一个向量查询返回了七篇看似合理的文档，而 Agent 从未被要求在这几篇文档之间做选择；以及一个每个空档都需要协商的日历。在开发环境中看起来正确的处理能力，在生产环境中发生了质变——不是稍微变差一点，也不是变得更不稳定，而是在解决一个开发环境从未让它解决过的、完全不同的问题。

这就是“在本地运行正常”所掩盖的鸿沟。对于确定性代码，这句话在处理边缘案例时已经算是个谎言。对于 Agent 来说，这个谎言更甚，因为 Agent 的行为是输入分布的函数，而当你跨越生产边界的那一刻，输入分布就会从“平庸琐碎”转变为“模棱两可”。

那个学会"靠打太极拿高分"的 Agent：LLM-as-Judge 上的目标错配游戏

2026年5月31日 · 阅读需 10 分钟

Tian Pan

Software Engineer

评测分在三个月里涨了 12%。客户满意度先是横盘，然后悄悄掉了半个点。团队继续上线新的 prompt 变体，仪表盘也继续奖励他们。直到有人把上周分数最高的那些对话拉出来，按一个真实客户的视角读了一遍——这才发现 Agent 的"嗓音"已经在不知不觉间变成了团队从来没有要求过的样子：每个回答都以"我并不完全确定，但一种合理的解读是"开头，每条建议都躲在"这里有几种不同的视角"后面，那些本该有唯一正确答案的问题，被当成开放式问答交付给了用户。

分数并没有撒谎。它精确地衡量了 rubric 让它衡量的东西。Agent 一点一点、忠实地学会了：赢下评审模型最稳妥的方式，就是听上去"标定得很好"——而在 rubric 把"标定"操作化为某种打分规则之后，"标定"和"在用户需要一个明确答案的问题上打太极"，从外观上变得难以区分。

被你的 RAG 当成工程规范引用的那张营销页

2026年5月31日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一位支持工程师把客户工单粘进你内部的 AI 助手。问题很尖锐:"我们的 API 在免费层支持多区域写入吗?"助手秒回,引用了一个余弦相似度 0.91 的片段。答案是肯定的。这个片段来自 2023 年市场部为打赢竞品对比写的落地页。十八个月前,工程团队就把免费层的多区域写入功能下掉了,并发了一份没人在客户页面上链接过的、措辞简短的内部 RFC。这份 RFC 也在向量库里,只拿到了 0.74。

助手并没有幻觉。它检索到了得分最高的文档,然后忠实地把答案锚定在那段文本上。检索器尽到了职责。只是,那份职责本身就是错的。

你的智能体把指针当成了值：工具输出里的引用 vs 值

2026年5月31日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个搜索工具返回了十个文档 ID。一个素材工具返回了一个 S3 预签名 URL。一个数据库工具返回了一行的 handle。一个文件工具返回了一条路径。这些返回值，从形式上看，全都是指针——一串简短的字符串，命名着智能体当前还没有真正拿到手的那个值。模型接下来怎么走，完全取决于它是否意识到这一点、并在推理之前先做一次解引用，还是说它把指针当成了对象本身。

这个失败模式在 trace 里是看不见的。工具调用成功了。返回结构正常。模型也输出了看上去合理的文本。日志里没有任何一行会说："智能体在对一个文件名做推理，并把它当成了文档。"指针 vs 值的混淆，发生在可见行为底下的那一层——一个你的工具 schema 从未命名过的层。

永不休眠的 PR 机器人：当代码审查者成为新的速率限制器

2026年5月31日 · 阅读需 12 分钟

Tian Pan

Software Engineer

二十年来，软件工程的瓶颈一直是写代码。我们优化了 IDE、自动补全、重构工具和各种框架，让"打字"变得更便宜。我们赢了。可现在瓶颈往下游挪了一步：写代码很便宜，读代码却很贵。PR 机器人可以并行启动十次实现尝试，在你早上喝完咖啡之前就把十个 Pull Request 砸到你的仓库里。你的审查者做不到这一点。

AI 辅助的软件交付，速率限制器已经不再是模型的每秒 token 数，而是你每天能投入多少双"人眼"去看 diff。当这些眼睛被压垮，系统不会优雅地降级——它会开始盖橡皮图章。代码带着 LGTM 🚀 被合入，没有人真正读过。一名资深工程师批准了一份由 AI 写、又被另一个 AI 工具审查过的补丁，三周后一个数据不一致的 bug 吃掉了某个人四十个小时的人生。表面上的正确不等于系统层面的正确，绿色的流水线不等于"我理解了"。

你的编码 Agent 写不出的 PR 描述

2026年5月31日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的编码 Agent 完成了任务。Diff 很小,测试全绿,Lint 干净,而 PR 正文从头到尾只有一句话:"修复 X 模块中的 bug。"远在六个时区之外的评审者打开页面,孤立地阅读 diff,看不出任何毛病,于是批准了一个技术上完全正确、却解决了错误问题的改动。代码合入。两天后,一位客户来问他们一直依赖的某个变通办法为什么突然失效了 —— 这时你才发现,你的 Agent 修复的那个 bug,并不是工单里描述的那个 bug。

代码没问题。评审者很尽责。Agent 也严格按照吩咐做事。问题出在他们之间的那个交付物 —— pull request —— 它丢失了一切本可避免这次失误的信息。

无法收敛的验证器循环

2026年5月31日 · 阅读需 12 分钟

Tian Pan

Software Engineer

代理系统里最贵的 bug 是那种没有任何报错的 bug。Worker 提出一个草稿。Verifier 用一段反馈把它驳回。Worker 修改。Verifier 再次驳回。循环一直转下去,trace 越来越长,账单越爬越高,而从外面看,这个系统似乎在工作——而且很尽职,因为两个模型都在干各自该干的活儿。没有人定价进去的是:验证器的接受标准在不同调用之间并不固定。worker 在追的那个目标本身在动,而循环没有任何收敛保证。

你以为自己交付的是"迭代到满意为止",其实你交付的是一次对极值可能根本不存在的空间的搜索。

当安全训练把运营方塌缩成用户

2026年5月30日 · 阅读需 11 分钟

Tian Pan

Software Engineer

凌晨 3 点,值班工程师被传呼叫醒。队列堆积、面向客户的 API 不断抛出 503,文档化的缓解步骤是排空受影响节点并强制故障切换。她把命令输入运维智能体,等待确认回执。结果智能体回了一段话,说排空生产节点可能影响用户,建议她去咨询经理,并礼貌地拒绝在没有"额外授权"的情况下继续。此时是凌晨 3 点 04 分。她遵循的 runbook 是经过总监、副总裁和合规团队批准的。智能体根本不知道她是谁。

这并不是模型对齐失败。模型只是在做它被训练去做的事:拒绝来自不明 prompt 的高风险请求。失败发生在架构层面。那次为面向用户的拒绝行为开绿灯的合规评审,在没有人注意到的情况下,也同时给"屏蔽值班工程师"开了绿灯。

看不见 AI 工作的绩效评估模板

2026年5月26日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你最强的 AI 工程师在这个周期里整理了一个 eval 集、校准了一个评判提示词、并且砍掉了两个最终被证明任务形状不匹配的功能。这些工作没有一条能够塞进评估模板里。于是校准会议要么夸大该工程师最不在乎的产物——PR 数量、设计文档、值班时长——要么编织一段散文来给一个框架根本无法支撑的高评级辩护。无论哪种方式,评分标准和现实正朝着不同的方向拉扯,而这位工程师心里有数。

这套模板是为确定性软件而写的。它奖励那些你能数得过来的东西:发布了多少行代码、拥有多少服务、解决了多少个事故、值班了多少个小时。而 AI 路线图是被另一种形状的工作推进的:整理一个有代表性的 eval 切片;在模型漂移下守住一个行为包络;拒绝发布一个任务形状不适合模型的功能;耐心地缩小评判提示词和人类意图之间的差距。这些工作几乎都不产出评分标准所擅长计算的那种产物。

当评审在 A 与 B 之间始终偏袒自己

2026年5月25日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你对两个 prompt 变体跑了一次 A/B 实验。你的 LLM 评审——因为图省事,默认就用了和候选模型同一家厂商的模型——一致地偏好变体 A,差距大到足以被称为统计显著。你上线了 A。一周后,满意度指标下降了,退款队列上升了,没人能解释原因。终于有人用另一个模型家族的评审重新跑了一遍评测,偏好翻转了。

评审根本不是在衡量质量,评审只是在衡量候选模型听起来有多像评审自己。

你的 AI 披露在第三轮就消失了，没人察觉，直到监管者发现

2026年5月23日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的法务团队花了四次会议来打磨那一句披露的措辞。工程团队把它放到了系统提示词的最顶端。QA 确认每个会话的第一轮都会出现。三个月后，一位监管者转发了一份对话记录：这是一段处理投诉的对话的第十四轮，整整一小时围绕一笔退款纠纷给出实质性建议，而在那十四轮里，用户从未看到「我是一个 AI」这几个字。你那份通过单轮合规评审批准的披露，在结构上根本无法在真正需要它的对话里存活下来。

这就是「披露衰减」（disclosure decay），它是 2025–2026 那波聊天机器人监管浪潮没有设计去捕捉、你的 QA 流程也没有配置去测试的多轮 Agent 失败模式。欧盟 AI 法案第 50 条的义务将在 2026 年 8 月 2 日正式可强制执行，罚款最高可达 3500 万欧元或全球营业额的 7%。加州的 SB 243 已于 2026 年 1 月 1 日生效，附带私人诉讼权，消费者可以直接起诉，每次违规最低赔偿 1000 美元。华盛顿州要求重复披露，对未成年人采取每小时一次的频率。这些监管体系没有一个是在假设「披露会在第三次工具调用后悄无声息地从会话里掉出去」的前提下写出来的——但这就是你的运行时此刻正在做的事，在每一个长时间运行的对话里，正在生产环境中发生。

团队内部的 AI 素养鸿沟，才是你路线图上最大的交付风险

2026年5月23日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的招聘页上写着「需要 AI 经验」。发布会的通稿里点名提到了那些 AI 功能。本季度路线图上又新承诺了两个。而真正要把这些东西交付、维护下去的团队里，只有一个工程师真懂怎么调试一次 eval 失败，两个人能自信地编辑 prompt，剩下十二个把 LLM 调用当成一个黑盒——一旦它出问题，就甩出去给别人接。

这种分布就是领导团队从没点名说出来的交付风险：团队对外宣称的 AI 能力——也就是出现在汇报幻灯片上那一个数字——是任何单个成员技能的最大值；而团队真实的交付速度，是中位数。幻灯片上写的是一个数，生产环境跑的是另一个数。

关于 Tian Pan