1 篇博文含有标签「agent-ops」

Eval-Prod 漂移：测试中的智能体并不等同于生产环境中的智能体

2026年4月23日 · 阅读需 13 分钟

Software Engineer

评估套件显示绿色（通过）。仪表盘显示绿色。一周后，支持团队淹没在同样的投诉中：“助手一直拒绝预订会议。”你打开评估工具（eval harness），重放失败的追踪记录，结果它运行正常。非常完美。每一次都成功。Bug 不在你的评估中，也不在你的模型中。Bug 在于：你的评估所测量的 Agent 和你的客户正在交谈的 Agent 已经不再是同一个系统了，而目前还没有人意识到这一点。

评估与生产环境偏移（Eval-prod drift）是指评估工具加载到 Agent 中的内容与推理栈在请求时实际组装的内容之间，发生的缓慢且难以归因的发散。提示词（Prompts）、固定的模型版本（model pins）、工具架构（tool schemas）、护栏配置（guardrail configs）和功能标志（feature flags）分别通过不同的部署路径流入 Agent —— 代码合并、配置推送、提示词注册中心的回调、实验平台、运行时上线 —— 几乎没有团队拥有一个能够协调这些内容的单一事实来源。因此，评估工具最终测量的是存在于某人 PR 分支中的 Agent 版本，而生产环境运行的则是昨日热修复、上周的功能标志变体，以及工具团队在没告知任何人的情况下推送的任何内容的集合。

这不是一种理论上的失效模式。它是任何运行超过三个月、且配置分布在多个代码库中的 Agent 系统的默认状态。

关于 Tian Pan