跳到主要内容

2 篇博文 含有标签「shadow-testing」

查看所有标签

Shadow Replay 会惩罚那些本可以改变对话走向的模型

· 阅读需 11 分钟
Tian Pan
Software Engineer

我在上季度合作的一个团队将一个新模型部署到了影子回放(shadow replay)中,结果发现其针对现有模型的胜率仅为 47%。同样的提示词,同样的检索,而该模型在厂商自带的评估中明显排名更高。影子测试框架获取了上周的生产流量,将其通过候选模型运行,把两者的响应都交给 LLM 裁判进行打分,最后宣布这次升级基本上就像掷硬币一样。团队当时差一点当场就回滚了。

问题不在于模型。问题在于回放中的每一条用户消息都已经受限于旧模型的上一轮对话。候选模型在第一轮写出了更好的回答,但日志中的用户是针对一个已不再存在的不同回答做出的回应,从第二轮开始,裁判评估的其实是一段根本没有发生的对话。一个真正更好的、能够改变用户后续行为的模型,是无法与已有的基准真相(ground truth)进行对比评分的。回放机制在潜移默化中奖励了那些停留在旧轨迹上的行为。

模型迁移指南:如何在不破坏生产环境的情况下更换基座模型

· 阅读需 15 分钟
Tian Pan
Software Engineer

每一个交付过由大模型驱动的产品的团队都经历过同样的时刻:一个新的基础模型发布了,它拥有更好的基准测试结果、更低的成本,或者两者兼而有之——这时有人会问:“我们能直接把它换掉吗?”答案在预发布环境中总是肯定的,但在生产环境中往往是灾难性的。

“在新模型上能运行”与“在新模型上表现正确”之间的差距就是生产事故多发地。模型迁移之所以失败,不是因为新模型更差,而是因为迁移过程假设了本不存在的行为等效性。不同供应商的提示词格式规范各不相同。不同系列模型对系统提示词(System prompt)的解读也存在差异。旧模型能够优雅处理的边缘情况——通过你从未记录过的习得性怪癖——会变成回归问题暴露出来,而你的评估套件(eval suite)在设计之初并未考虑到这些。