跳到主要内容

数据飞轮假说:AI 功能是在产生复利,还是在堆积噪声?

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个 AI 融资演讲稿中都会包含一张关于数据飞轮的幻灯片。故事听起来很诱人:用户与你的 AI 功能交互,交互产生数据,数据训练出更好的模型,更好的模型吸引更多用户,循环往复。只要规模足够大,你就能拥有一道难以逾越的竞争护城河。

问题在于,大多数发布 AI 功能的团队并没有飞轮。他们只有一个日志文件。一个非常巨大、存储成本极高,但从未改进过模型,也永远不会改进模型的日志文件——因为实现真正飞轮的三个前提条件缺失了,而且没有人问过这些条件是否存在。

这并不是在批判飞轮概念本身。数据的复利优势是真实存在的:Tesla 的全自动驾驶系统仅在 2025 年就进行了超过 40 亿英里的行驶训练,而 Autopilot 的接管(disengagements)可以在几天内触发再训练循环。Netflix 超过 80% 的内容发现是通过根据数亿次观看环节的反馈进行微调的推荐实现的。这些是真正的飞轮。但它们具有大多数 AI 功能从未实现的结构性特征,而将“堆积”等同于“复利”,正是许多团队在产生不了任何结果的数据基础设施上虚耗数月的根源。

必须同时满足的三个条件

一个有效的数据飞轮需要三个条件同时成立。如果缺少任何一个,循环就会停滞。

反馈信号必须有效。 不是丰富,而是有效。有效的信号是指模型学习后,确实能针对你的目标优化模型行为的信号。点击行为本身并不必然有效。会话时长本身也不必然有效。一个可能意味着“答案错误”、“令人反感”或“我今天不喜欢这个话题”的差评(thumbs-down)是无效的——它会注入矛盾的信号,即使在大规模积累时也会导致模型平均表现下降。

反馈回路必须闭合。 收集了有效的信号却从未反馈到训练中,这不叫飞轮,这叫数据仓库。只有当数据从“用户动作 → 收集 → 标注或注释 → 模型训练 → 部署模型 → 用户看到变化后的行为”这一路径流动时,回路才算闭合。打破这个链条中的任何一环,飞轮就会停止转动。这听起来显而易见,直到你审计自己的组织,发现数据科学团队在收集交互日志,模型却每季度根据其他标准进行再训练,而且从来没有人白板上画出过实际的流水线。

反馈必须足够快才有意义。 延迟会扼杀复利效应。如果你的反馈周期超过 30 天且没有中间验证,你的迭代速度就无法超过基础模型的改进速度,也无法跑赢那些迭代速度比你快的竞争对手。欺诈检测系统在亚秒级的反馈下运行。Tesla 在一夜之间处理车队的接管数据。大多数应用型 AI 团队处理的是一个月前的日志,却称之为飞轮。

为什么交互日志通常只是噪声

最常见的失败模式不是团队没有收集数据,而是他们收集的数据在结构上无法改进模型。

推荐系统就是典型的例子。当用户点击了算法排名第一的项目时,这个点击告诉你的是你的算法预测了用户会点击什么,而不是用户真正偏好什么。基于该信号进行的训练会教会模型复制自己的预测。回路变成了自我参照:模型学会显示热门项目,热门项目获得更多点击,点击数据确认了应该显示热门项目。流行度偏差在每次迭代中不断放大,而不是提高相关性。这被称为“退化反馈循环”(degenerate feedback loop),在推荐类的 AI 功能中非常普遍。

同样的失败在生成式 AI 功能中以不同的方式体现。一个未经编辑就接受了 AI 草拟邮件的用户并不代表这封邮件写得好——他们可能只是赶时间。一个放弃对话的用户并不一定意味着 AI 失败了;他们可能从第一条回复中就得到了答案。隐性信号(点击、接受、跳过、会话长度)会被模型无法观察到的上下文所污染。当与显性反馈结合时,它们是有用的输入,但如果被视为真值(ground truth),它们会产生信号的错觉,最终演变成更糟糕的模型。

未标注的数据在更基础的层面也存在同样的问题。原始交互日志在训练监督模型之前需要进行标注:在这种情况下,正确的行为应该是什么?如果没有标注——无论是人工生成的、基于规则的,还是来自黄金标准系统的——你不是在训练模型,而是在根据你自己系统过去的表现进行训练。这种方法的天花板就是你当前模型的表现,而不是你希望它达到的表现。

复利效应真正发生在哪里

理解了为什么大多数飞轮会停滞,就更容易识别出哪些结构性特征让成功的案例发挥作用。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates