多变量回归问题:当所有因素同时改变时,如何隔离 AI 故障
· 阅读需 13 分钟
周一早上,一张工单传了过来:你负责的 AI 功能的用户满意度在周末下降了 18%。你打开部署日志,心里一沉。周五的发布包含了来自供应商的模型版本升级、产品团队的提示词(prompt)优化、内容审核后的检索语料库(retrieval corpus)刷新,以及因 API 字段重命名而进行的工具架构(tool schema)更新。四个变更。一次回退。完全不知道该归咎于哪个变量。
这就是多变量回归问题(multi-variable regression problem),它是生产环境 AI 系统中最难处理的一类故障。倒不是因为这种故障有多罕见——行为回退(behavioral regressions)时有发生——而是因为当团队快速迭代时,产生这种问题的条件几乎是必然的。那些看起来单独都很安全的变更堆积在一起,同时发布,最后让你在黑暗中摸索着进行调试。
