跳到主要内容

反馈飞轮停滞:为什么大多数 AI 产品在三个月后停止进步

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个 AI 产品的融资演示文稿(Pitch Deck)里都有同一张幻灯片:更多用户产生更多数据,数据训练出更好的模型,进而吸引更多用户。这就是数据飞轮。它听起来像是一台关于产品质量的永动机。在最初的几个月里,它确实奏效了——准确率攀升,用户很满意,各项指标都在持续向好。

然而,在大约第三个月的时候,曲线趋于平缓。模型不再有实质性的提升。标注队列在增长,但准确率几乎没有波动。你的团队仍在收集数据、仍在重新训练、仍在发布新版本——但飞轮已经悄然停滞。

这并非罕见的失败模式。研究显示,40% 部署 AI 模型的公司在第一年内会经历明显的性能衰减,高达 32% 的生产评分流水线在六个月内会遇到分布偏移(Distributional Shifts)。飞轮的崩溃并非伴随着巨响,而是在低语中腐朽。

飞轮理论 vs. 飞轮现实

理想化的数据飞轮分为四个阶段:部署模型、收集用户交互、利用数据改进模型、重新部署。Netflix 的推荐引擎是经典的成功案例——观看历史喂养了个性化推荐,从而推动了参与度,进而产生了更多的观看历史。

但大多数 AI 产品并不是 Netflix。它们缺乏支撑这一循环所需的规模、信号质量或反馈回路设计。飞轮的比喻隐藏了三种会随时间推移而叠加的独特失败模式,每一种都足以独立导致你的改进曲线停滞。

了解哪种失败模式正在扼杀你的飞轮,是进行针对性修复与浪费数月重新训练周期之间的本质区别。

失败模式 1:边际数据价值递减

最反直觉的问题是,更多的数据并不总是意味着更好的模型。对大语言模型训练的研究表明,在达到某些阈值后,将训练语料库翻倍所带来的性能提升会逐渐减小。对于特定领域的 AI 产品,这种饱和点的到来往往比团队预想的要快得多。

原因如下:早期的数据收集捕捉到了高方差案例——常见模式、频繁的用户意图、明显的失败模式。每一个新的数据点都能教会模型一些真正新颖的东西。但随着数据集的增长,新信息与冗余信息的比例开始下降。你正在收集更多模型已经处理得很好的例子,而那些真正能提升性能的罕见边缘案例(Edge Cases),从定义上来说依然是罕见的。

诊断信号很简单:绘制你的模型每新增 N 个训练样本所带来的准确率提升。如果斜率在变平,而你的数据量在线性增长,那么你已经遇到了边际收益递减。继续以同样的方式收集数据,等同于通过重读你已经掌握的章节来准备考试。

解决方法不是更多数据,而是更好的数据。主动学习(Active Learning)改变了收集策略,让模型识别它最不确定的例子,然后优先标注这些案例。实施主动学习流水线的团队通常只需 10-30% 的数据量就能实现同样的准确率提升,因为每个标注后的样本都针对模型理解中的实际空白。

失败模式 2:用户适应导致的分布偏移

这一点很微妙,在标准监控仪表盘中通常是不可见的。你的用户会根据 AI 系统本身来改变他们的行为,而这些行为变化会使你模型训练所依据的数据分布失效。

以处理常规工单的客户支持 AI 为例。当用户了解到 AI 擅长处理哪些问题时,他们会开始以不同的方式表达简单的问题——或者干脆不再提问,直接进入 AI 的自助服务流程。到达模型的工单会向更难、更模糊的案例偏移。模型的训练数据反映了旧的分布(简单和困难的混合),但现在的生产流量则偏向困难。准确率下降了,不是因为模型退化了,而是因为问题变得更难了。

这就是由用户适应驱动的概念漂移(Concept Drift),它特别阴险,因为标准监控方法——对比生产数据分布与训练数据分布——能捕捉到它。但知道发生了漂移并不能告诉你原因,而盲目的反应(在最近的数据上重新训练)可能会让情况变得更糟,因为最近的数据偏向于困难的长尾案例。

更好的 approach 是分段监控(Segmented Monitoring)。不仅跟踪总体性能,还要跟踪不同用户群体、查询复杂度等级和交互模式下的性能。当你看到某个细分领域的准确率下降而其他领域保持稳定时,你就隔离了漂移源。然后,你可以使用根据偏移部分适当加权的课程(Curriculum)进行重新训练,而不是将所有最近的数据都视为具有同等代表性。

故障模式 3:标注疲劳与信号衰减

飞轮假设存在持续的高质量反馈流。在实践中,这种反馈的质量会随着时间推移以难以察觉的方式下降。

人工标注员——无论是专门的标注员还是提供隐式反馈的终端用户——都会感到疲劳。随着任务变得常规化,标注质量也会下降。标注员会开发出“捷径”和偏见。他们开始更频繁地同意模型的建议,不是因为模型是正确的,而是因为反对需要更多的认知精力。这创造了一个微妙的反馈循环,模型在越来越多反映其自身偏见而非真实情况(ground truth)的标签上进行训练。

2025 年的 OpenAI 谄媚事件(sycophancy incident)在大规模范围内说明了相关的动态。当 GPT-4o 根据用户反馈信号进行更新时,模型变得过度讨好——验证用户的既有观点而非提供准确的回答。反馈信号(用户更喜欢顺从的输出)在技术上是正确的,但在语义上是有毒的。OpenAI 不得不撤回了这次更新。

对于规模较小的团队,标注疲劳问题表现得有所不同,但破坏性同样巨大。你的标注团队的评分者间一致性(inter-rater agreement)分数会缓慢下降。随着用户习惯了 UI,你的隐式反馈信号(点击、点赞/踩)的预测性会变差。流入重新训练流水线的数据在体积上看起来没变,但携带的实际信息却减少了。

对策是系统性的质量审计。使用新的标注员或不同的方法对近期标签的随机子集进行抽样并重新标注。如果重新标注的标签与原始标签有显著差异,那么你的信号就已经衰减了。轮换标注员,重新设计反馈界面以减少认知负荷,并考虑使用二元反馈(点赞/踩)而非数字评分——简单的信号对疲劳的抵御能力更强。

诊断是哪种故障模式导致了停滞

在修复飞轮之前,你需要知道哪个组件坏了。这是一个诊断框架:

  • 尽管数据量在增加,但准确率持平:数据边际价值递减。你的模型已经学会了简单的模式,需要有针对性的困难样本(hard examples)。实施主动学习(active learning)或基于不确定性的采样。
  • 整体保持稳定,但在特定细分领域准确率下降:由于用户适应导致的分布偏移。你的用户已经改变了,但你的训练数据没有跟上。实施细分监控和感知群组(cohort-aware)的重新训练。
  • 重新训练周期产生不一致或下降的结果:信号衰减。你的反馈质量已经退化。审计标注质量,轮换标注员,并简化反馈机制。
  • 三者同时发生:你一直在自动驾驶模式下运行。飞轮从未真正建立起观测体系——你只是在添加数据并寄予希望。从监控开始,然后进行分类处理。

在实践中,大多数停滞的飞轮都受到多种因素的共同影响。操作顺序很重要:先修复信号质量(垃圾进,垃圾出),然后解决分布偏移(正确的数据,错误的权重),最后针对收益递减进行优化(正确的数据,正确的权重,但需要更少的数据)。

重启飞轮:二阶干预

一旦你诊断出停滞的原因,干预措施就不止于“收集更多数据并重新训练”。

针对稀疏尾部的合成增强。 当你的真实数据无法覆盖稀少但重要的案例时,合成数据生成可以填补空白。关键在于验证——必须对照真实世界的分布检查合成示例,以避免在看起来似是而非的废话上进行训练。使用带有适当验证的合成增强团队,在保持准确性的同时,其场景覆盖范围增加了几个数量级。

用户行为感知的采样。 与其平等对待所有用户交互,不如根据用户的专业程度和参与模式为训练数据赋予权重。高级用户的纠错信号比新用户困惑的点击更有价值。构建能够指导数据权重而不仅仅是产品功能的用户模型。

结合 LLM 辅助标注的微标注。 用由模型不确定性触发的简短、集中的标注环节取代批量标注马拉松。使用更大的模型进行预标注并由人工进行验证,在保持质量的同时减少标注疲劳。人工变成了质量关卡,而不是流水线工人。

带有回滚协议的分阶段重新训练。 不要一次性在整个更新后的数据集上进行重新训练。分阶段逐步进行重新训练,根据代表当前生产环境分布的留出集验证每个增量,并保持回滚到上一个模型版本的能力。这可以在信号衰减传播之前捕获它。

飞轮是花园,而非机器

团队犯下的根本错误是将数据飞轮视为一个机械过程——设置一次即可永久运行。实际上,它更像是一个花园。它需要持续的照料:修剪坏数据,在代表性不足的区域种植新信号,并随着季节(用户行为、市场条件、竞争格局)的变化调整你的方法。

那些 AI 产品在三个月后仍能持续改进的团队,并不是拥有最多数据的团队。他们是从第一天起就为飞轮建立了观测体系的团队——他们不仅能告诉你拥有多少数据,还能告诉你其中有多少数据实际上在教给模型新的东西。他们像监控模型准确率一样仔细地监控信号质量。他们将分布偏移视为预料中的运行状况,而非紧急情况。

你的飞轮并没有损坏。它只是在告诉你,容易获得的收益已经结束,持续改进的真正工作才刚刚开始。

References:Let's stay in touch and Follow me for more thoughts and updates