跳到主要内容

2 篇博文 含有标签「model-upgrade」

查看所有标签

Agent 回填问题:你的模型升级是对过去 90 天的一次审判

· 阅读需 13 分钟
Tian Pan
Software Engineer

这是一个周二早晨的对话,你的 AI 团队中没人为此做好了准备。新模型以影子模式(shadow mode)上线。不到一小时,评估仪表盘亮起:它对 4% 退款申请的分类与你上一季度运行的模型不同。大多数这类决策翻转看起来都是新模型是对的。房间里的一位成员——通常是汇报线中律师最多的那位——提出了一个让庆祝戛然而止的问题:那么,对于旧模型已经交付的 90 天决策,我们要怎么处理?

这就是智能体回填(agent backfill)问题。当一个更智能的模型开始产生比之前模型更正确的输出时,之前模型做出的每一个持久化决策都会变成一个有争议的记录。你本无意指责过去,但新模型在第一次对比追踪(traces)时就自动为你这么做了。现在你面临一个工程问题(我们能重演历史吗?)、一个法律问题(我们必须披露修正后的结果吗?)以及一个产品问题(用户会看到追溯性的变化吗?),这些问题发生了碰撞。

智能体能力悬崖:为什么你的模型升级让简单的 95% 变得完美,却让困难的 5% 成了你最糟糕的季度

· 阅读需 13 分钟
Tian Pan
Software Engineer

你上线了新模型。综合评估通过率从 91% 提升到了 96%。产品团队在全体员工大会上宣布这是一次重大胜利。六周后,可靠性团队却迎来了有史以来最糟糕的一个季度——并不是因为故障变多了,而是因为现在每一个故障都需要三名工程师花上两天时间才能解决。

这就是智能体能力悬崖 (agent capability cliff),它是生产环境 AI 中最反直觉的失败模式之一。模型升级并不会均匀地提升所有任务的表现。它们将增益集中在大部分流量上——即那些旧模型原本就能在大部分时间内处理正确的简单和中等案例——而长尾中真正困难的输入却只看到了微乎其微的改进。你的失败面缩小了,但剩下的每一次失败都是能力边界案例,这些案例旧模型也处理不了,而且简单的提示词工程 (prompt engineering) 也无法修复。

这个“悬崖”并不是新模型的缺陷。它是我们衡量模型改进的方式(混合难度评估集的平均通过率)与值班排班中实际遇到的问题(最难流量的残差集,现在已经没有了以前占据主导地位的简单故障的缓冲)之间的不匹配。