快照追踪测试:将生产环境追踪作为你的回归测试套件
大多数团队作为回归测试套件运行的评估集,是由一名工程师在项目第三周手工挑选的。到了第六周,因为没人想在发布前动它,它就被冻结了;而到了第九个月,它正被用来拦截部署。产品已经调整了两次。用户群翻了三倍。LLM 在生产环境中实际遇到的案例与那个冻结的测试集重合度可能只有 40%。当测试集通过时,没人相信它;当它失败时,没人知道是真实的失败,还是案例已经过时。团队写了一份提议“v2 评估集”的文档,却从未真正动手。
与此同时,系统在生产环境中处理的每一个请求都已被记录在追踪后端中。每一个提示词、每一次工具调用、每一项中间输出、每一次拒绝、每一次重试——所有这些都存储在对象存储中,按时间索引并带有 span 标签,随时准备回放。团队所能拥有的最高保真度的测试语料库已经在磁盘上了。他们却从零开始构建了一个评估集,而不是从中读取。
