反馈飞轮停滞：为什么大多数 AI 产品在三个月后停止进步

2026年4月12日 · 阅读需 10 分钟

Software Engineer

每个 AI 产品的融资演示文稿（Pitch Deck）里都有同一张幻灯片：更多用户产生更多数据，数据训练出更好的模型，进而吸引更多用户。这就是数据飞轮。它听起来像是一台关于产品质量的永动机。在最初的几个月里，它确实奏效了——准确率攀升，用户很满意，各项指标都在持续向好。

然而，在大约第三个月的时候，曲线趋于平缓。模型不再有实质性的提升。标注队列在增长，但准确率几乎没有波动。你的团队仍在收集数据、仍在重新训练、仍在发布新版本——但飞轮已经悄然停滞。

这并非罕见的失败模式。研究显示，40% 部署 AI 模型的公司在第一年内会经历明显的性能衰减，高达 32% 的生产评分流水线在六个月内会遇到分布偏移（Distributional Shifts）。飞轮的崩溃并非伴随着巨响，而是在低语中腐朽。

飞轮理论 vs. 飞轮现实

理想化的数据飞轮分为四个阶段：部署模型、收集用户交互、利用数据改进模型、重新部署。Netflix 的推荐引擎是经典的成功案例——观看历史喂养了个性化推荐，从而推动了参与度，进而产生了更多的观看历史。

但大多数 AI 产品并不是 Netflix。它们缺乏支撑这一循环所需的规模、信号质量或反馈回路设计。飞轮的比喻隐藏了三种会随时间推移而叠加的独特失败模式，每一种都足以独立导致你的改进曲线停滞。

了解哪种失败模式正在扼杀你的飞轮，是进行针对性修复与浪费数月重新训练周期之间的本质区别。

失败模式 1：边际数据价值递减

最反直觉的问题是，更多的数据并不总是意味着更好的模型。对大语言模型训练的研究表明，在达到某些阈值后，将训练语料库翻倍所带来的性能提升会逐渐减小。对于特定领域的 AI 产品，这种饱和点的到来往往比团队预想的要快得多。

原因如下：早期的数据收集捕捉到了高方差案例——常见模式、频繁的用户意图、明显的失败模式。每一个新的数据点都能教会模型一些真正新颖的东西。但随着数据集的增长，新信息与冗余信息的比例开始下降。你正在收集更多模型已经处理得很好的例子，而那些真正能提升性能的罕见边缘案例（Edge Cases），从定义上来说依然是罕见的。

诊断信号很简单：绘制你的模型每新增 N 个训练样本所带来的准确率提升。如果斜率在变平，而你的数据量在线性增长，那么你已经遇到了边际收益递减。继续以同样的方式收集数据，等同于通过重读你已经掌握的章节来准备考试。

解决方法不是更多数据，而是更好的数据。主动学习（Active Learning）改变了收集策略，让模型识别它最不确定的例子，然后优先标注这些案例。实施主动学习流水线的团队通常只需 10-30% 的数据量就能实现同样的准确率提升，因为每个标注后的样本都针对模型理解中的实际空白。

失败模式 2：用户适应导致的分布偏移

这一点很微妙，在标准监控仪表盘中通常是不可见的。你的用户会根据 AI 系统本身来改变他们的行为，而这些行为变化会使你模型训练所依据的数据分布失效。

以处理常规工单的客户支持 AI 为例。当用户了解到 AI 擅长处理哪些问题时，他们会开始以不同的方式表达简单的问题——或者干脆不再提问，直接进入 AI 的自助服务流程。到达模型的工单会向更难、更模糊的案例偏移。模型的训练数据反映了旧的分布（简单和困难的混合），但现在的生产流量则偏向困难。准确率下降了，不是因为模型退化了，而是因为问题变得更难了。

这就是由用户适应驱动的概念漂移（Concept Drift），它特别阴险，因为标准监控方法——对比生产数据分布与训练数据分布——能捕捉到它。但知道发生了漂移并不能告诉你原因，而盲目的反应（在最近的数据上重新训练）可能会让情况变得更糟，因为最近的数据偏向于困难的长尾案例。

更好的 approach 是分段监控（Segmented Monitoring）。不仅跟踪总体性能，还要跟踪不同用户群体、查询复杂度等级和交互模式下的性能。当你看到某个细分领域的准确率下降而其他领域保持稳定时，你就隔离了漂移源。然后，你可以使用根据偏移部分适当加权的课程（Curriculum）进行重新训练，而不是将所有最近的数据都视为具有同等代表性。

故障模式 3：标注疲劳与信号衰减

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

反馈飞轮停滞：为什么大多数 AI 产品在三个月后停止进步

飞轮理论 vs. 飞轮现实

失败模式 1：边际数据价值递减

失败模式 2：用户适应导致的分布偏移

故障模式 3：标注疲劳与信号衰减

Recommended Reading

关于 Tian Pan

飞轮理论 vs. 飞轮现实​

失败模式 1：边际数据价值递减​

失败模式 2：用户适应导致的分布偏移​

故障模式 3：标注疲劳与信号衰减​

Recommended Reading

关于 Tian Pan

飞轮理论 vs. 飞轮现实

失败模式 1：边际数据价值递减

失败模式 2：用户适应导致的分布偏移

故障模式 3：标注疲劳与信号衰减