跳到主要内容

Agent 回填问题:你的模型升级是对过去 90 天的一次审判

· 阅读需 13 分钟
Tian Pan
Software Engineer

这是一个周二早晨的对话,你的 AI 团队中没人为此做好了准备。新模型以影子模式(shadow mode)上线。不到一小时,评估仪表盘亮起:它对 4% 退款申请的分类与你上一季度运行的模型不同。大多数这类决策翻转看起来都是新模型是对的。房间里的一位成员——通常是汇报线中律师最多的那位——提出了一个让庆祝戛然而止的问题:那么,对于旧模型已经交付的 90 天决策,我们要怎么处理?

这就是智能体回填(agent backfill)问题。当一个更智能的模型开始产生比之前模型更正确的输出时,之前模型做出的每一个持久化决策都会变成一个有争议的记录。你本无意指责过去,但新模型在第一次对比追踪(traces)时就自动为你这么做了。现在你面临一个工程问题(我们能重演历史吗?)、一个法律问题(我们必须披露修正后的结果吗?)以及一个产品问题(用户会看到追溯性的变化吗?),这些问题发生了碰撞。

传统的机器学习(ML)团队也有类似的问题,但大多能应付自如。流失模型重新训练后,新的概率发生了变化,没人会给上一季度“可能流失”的客户发送道歉信。那个决策只是一个没人在没有人工干预的情况下单独采取行动的分数;有人类参与其中;而且行动是可逆的。但智能体系统(Agent systems)无法躲在这些借口之后。模型批准了退款,模型对文档进行了分类,模型关闭了支持工单。行动已经交付。现在新版本不同意旧的做法。

当决策变得持久时,情况发生了哪些变化

大多数 LLM 评估框架都是为“评分模型输出,然后决定是否发布”这种情况而设计的。黄金集回放(Golden-set replay)捕获针对固定参考的回归;影子模式让你根据当前响应对新响应进行评分;生产采样保持对质量的持续了解。所有这些机制都假设分析单位是“模型是否产生了良好的响应”。但对于当响应本身就是行动时该怎么办,它们却只字未提。

一旦智能体产生了持久的副作用(side effects),这种比较就不再是学术性的了。退款已经发放,工单已经路由给人工,候选人已经落选,交易已经被标记。新模型的输出不再是关于基准测试的一个观点;它是关于你的公司已经做出并执行的决策的一个观点。当你发布升级时,你至少是在内部发布了一份持续更新的清单,列出了旧模型和当前模型不一致的情况。

以下三个特性使这类决策区别于机器学习团队过去十年所做的预测:

  • 行动的可见性。 数据库中的分数是不可见的。某人收件箱里的退款拒绝通知则不是。用户会记得;审计员可以调取邮件。
  • 错误成本的不对称性。 3% 的准确率提升在整体上是很好的,但受影响的用户感受不到平均值。他们感受到的是旧模型说“不”的那个具体案例。
  • 决策理据的具体性。 现代智能体不仅输出标签,还会输出推理过程、工具调用和引用。监管机构开始索取这些产物,无论你是否愿意,它们都会在不同模型版本之间进行比较。

三种重演方式(只有一种是低成本的)

当团队说“我们应该通过新模型重演过去 90 天的数据”时,他们通常指的是以下三种不同的事情之一,而它们之间的成本阶梯非常陡峭。

评估重演(Eval replay) 是低成本版本。你选取具有代表性的历史输入样本,在沙箱中通过新模型运行,针对旧模型的输出(或留存的人工标签集)对输出进行评分,并生成报告。这是一个回归测试。没人账户状态会发生变化。你应该已经在做这件事了;如果还没有,那么剩下的讨论都还为时过早。

决策重演(Decision replay) 是中间层。你针对历史输入重新运行新模型,并为每个历史决策生成一个“新模型会怎么做”的产物。输出是一个差异对比(diff):新模型本应批准而非拒绝、本应分类为 A 而非 B、本应升级而非自动解决的案例。不会触发真实的副作用——你正在生成一个反事实记录,而不是根据它采取行动。当在旧模型中发现高影响 Bug 时,合规团队通常暗中希望如此。但这也很昂贵:你需要旧模型看到的所有输入,完全保持当时的样貌,包括任何检索到的上下文、工具输出以及决策时刻的用户状态。

行动重演(Action replay) 是那种如果你做错了,会导致被解雇的版本。你针对历史输入重新运行新模型,让它采取行动——发放退款、发送邮件、撤销工单关闭。当决策重演报告显示 1.2% 的退款拒绝本应是批准时,有人会在第三次会议上提出这个方案。这也是幂等性、沟通和知情同意发生碰撞的地方。发送两次同样的道歉,你就会变成那家因为一笔六个月前、客户早已忘记的退款而专门发邮件致歉的公司。

这种层级关系才是重点。大多数组织会直接跳过“我们应该重演这个”阶段,直接想象行动重演的结果,然后被政治成本吓退,最终无所作为。更健康的做法是将评估和决策重演持续化,这样“会有什么不同的结果”这个问题就不再是一个特殊的项目,而是一个仪表盘。此时,行动重演就变成了一个深思熟虑、有范围限制的干预,而不是一个模糊的愿景。

在这一切奏效之前你需要的架构前提

你无法回放你未曾捕捉到的内容。回溯补填(backfill)讨论中最常见的失败模式是:在进行了三周后才意识到,旧模型的输入是在请求时从此后改变了形态的系统中临时组装的,而模型当时实际看到的内容并没有快照。当你发现这一点时,回溯的机会已经消失了。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates