训练数据自中毒:当你的 AI 功能破坏了其自身的基准真相
· 阅读需 11 分钟
你的推荐模型在三个月前上线了。点击率增长了 18%。观看时长在不断攀升。仪表盘上一片飘绿。领导层很满意。
而你的模型正在悄悄地破坏它将用于训练下一个版本的数据。
这就是训练数据自中毒(training data self-poisoning):一种反馈循环,其中已部署的 AI 功能会改变用户行为,其方式破坏了模型最初训练时学习的交互数据。最糟糕的是,你的标准参与度指标会告诉你一切正常 —— 直到它们失效的那一刻。
