跳到主要内容

反馈飞轮停滞:为什么大多数 AI 产品在三个月后停止进步

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个 AI 产品的融资演示文稿(Pitch Deck)里都有同一张幻灯片:更多用户产生更多数据,数据训练出更好的模型,进而吸引更多用户。这就是数据飞轮。它听起来像是一台关于产品质量的永动机。在最初的几个月里,它确实奏效了——准确率攀升,用户很满意,各项指标都在持续向好。

然而,在大约第三个月的时候,曲线趋于平缓。模型不再有实质性的提升。标注队列在增长,但准确率几乎没有波动。你的团队仍在收集数据、仍在重新训练、仍在发布新版本——但飞轮已经悄然停滞。

这并非罕见的失败模式。研究显示,40% 部署 AI 模型的公司在第一年内会经历明显的性能衰减,高达 32% 的生产评分流水线在六个月内会遇到分布偏移(Distributional Shifts)。飞轮的崩溃并非伴随着巨响,而是在低语中腐朽。

飞轮理论 vs. 飞轮现实

理想化的数据飞轮分为四个阶段:部署模型、收集用户交互、利用数据改进模型、重新部署。Netflix 的推荐引擎是经典的成功案例——观看历史喂养了个性化推荐,从而推动了参与度,进而产生了更多的观看历史。

但大多数 AI 产品并不是 Netflix。它们缺乏支撑这一循环所需的规模、信号质量或反馈回路设计。飞轮的比喻隐藏了三种会随时间推移而叠加的独特失败模式,每一种都足以独立导致你的改进曲线停滞。

了解哪种失败模式正在扼杀你的飞轮,是进行针对性修复与浪费数月重新训练周期之间的本质区别。

失败模式 1:边际数据价值递减

最反直觉的问题是,更多的数据并不总是意味着更好的模型。对大语言模型训练的研究表明,在达到某些阈值后,将训练语料库翻倍所带来的性能提升会逐渐减小。对于特定领域的 AI 产品,这种饱和点的到来往往比团队预想的要快得多。

原因如下:早期的数据收集捕捉到了高方差案例——常见模式、频繁的用户意图、明显的失败模式。每一个新的数据点都能教会模型一些真正新颖的东西。但随着数据集的增长,新信息与冗余信息的比例开始下降。你正在收集更多模型已经处理得很好的例子,而那些真正能提升性能的罕见边缘案例(Edge Cases),从定义上来说依然是罕见的。

诊断信号很简单:绘制你的模型每新增 N 个训练样本所带来的准确率提升。如果斜率在变平,而你的数据量在线性增长,那么你已经遇到了边际收益递减。继续以同样的方式收集数据,等同于通过重读你已经掌握的章节来准备考试。

解决方法不是更多数据,而是更好的数据。主动学习(Active Learning)改变了收集策略,让模型识别它最不确定的例子,然后优先标注这些案例。实施主动学习流水线的团队通常只需 10-30% 的数据量就能实现同样的准确率提升,因为每个标注后的样本都针对模型理解中的实际空白。

失败模式 2:用户适应导致的分布偏移

这一点很微妙,在标准监控仪表盘中通常是不可见的。你的用户会根据 AI 系统本身来改变他们的行为,而这些行为变化会使你模型训练所依据的数据分布失效。

以处理常规工单的客户支持 AI 为例。当用户了解到 AI 擅长处理哪些问题时,他们会开始以不同的方式表达简单的问题——或者干脆不再提问,直接进入 AI 的自助服务流程。到达模型的工单会向更难、更模糊的案例偏移。模型的训练数据反映了旧的分布(简单和困难的混合),但现在的生产流量则偏向困难。准确率下降了,不是因为模型退化了,而是因为问题变得更难了。

这就是由用户适应驱动的概念漂移(Concept Drift),它特别阴险,因为标准监控方法——对比生产数据分布与训练数据分布——能捕捉到它。但知道发生了漂移并不能告诉你原因,而盲目的反应(在最近的数据上重新训练)可能会让情况变得更糟,因为最近的数据偏向于困难的长尾案例。

更好的 approach 是分段监控(Segmented Monitoring)。不仅跟踪总体性能,还要跟踪不同用户群体、查询复杂度等级和交互模式下的性能。当你看到某个细分领域的准确率下降而其他领域保持稳定时,你就隔离了漂移源。然后,你可以使用根据偏移部分适当加权的课程(Curriculum)进行重新训练,而不是将所有最近的数据都视为具有同等代表性。

故障模式 3:标注疲劳与信号衰减

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates