跳到主要内容

2 篇博文 含有标签「training-data」

查看所有标签

AI 代码反馈循环:今日生成的代码如何训练明日的模型

· 阅读需 10 分钟
Tian Pan
Software Engineer

2025 年,全球新合并的代码中约有 41% 是 AI 生成的。这些代码绝大多数流入了公开索引、被爬取、并最终反哺到下一轮 AI 编程工具训练数据中的生产代码库。其中的含义直截了当,但后果仍在持续显现:AI 模型正日益在前代 AI 模型的输出上进行训练,而没有任何结构化的记录来追踪哪些代码来自何处。

这就是上下文污染问题。它并非假设。反馈循环已在大规模运行,质量影响可以量化,而其失效模式足够特殊——在短期内可能看起来像是进步,而底层分布却在悄然退化。

真正能训练模型的反馈界面

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数 AI 产品上线时都带着一个点赞/踩组件,并将其称为反馈基础设施。但它并不是。实际上,它是一份调查问卷——只有不满意或格外认真的用户才会去填。而且这份问卷无法告诉你正确的输出应该是什么样的。

其结果是:数据集的形状不由用户想要什么决定,而是由哪些用户愿意点按钮决定。这种选择偏差会渗透到微调、奖励模型和 DPO 流水线中,悄悄地将模型导向极少数且缺乏代表性的少数人的偏好。而隐式信号——编辑率、重试率、会话放弃——则覆盖了所有接触产品的用户,无需任何点击,只是使用软件这一行为本身就能产生这些信号。

以下是如何设计反馈界面,将高保真训练信号作为产品使用的自然副产品生成,以及如何将这些信号接入训练流水线。