2 篇博文含有标签「training-data」

AI 代码反馈循环：今日生成的代码如何训练明日的模型

2026年5月7日 · 阅读需 10 分钟

Software Engineer

2025 年，全球新合并的代码中约有 41% 是 AI 生成的。这些代码绝大多数流入了公开索引、被爬取、并最终反哺到下一轮 AI 编程工具训练数据中的生产代码库。其中的含义直截了当，但后果仍在持续显现：AI 模型正日益在前代 AI 模型的输出上进行训练，而没有任何结构化的记录来追踪哪些代码来自何处。

这就是上下文污染问题。它并非假设。反馈循环已在大规模运行，质量影响可以量化，而其失效模式足够特殊——在短期内可能看起来像是进步，而底层分布却在悄然退化。

真正能训练模型的反馈界面

2026年4月17日 · 阅读需 11 分钟

Tian Pan

Software Engineer

大多数 AI 产品上线时都带着一个点赞/踩组件，并将其称为反馈基础设施。但它并不是。实际上，它是一份调查问卷——只有不满意或格外认真的用户才会去填。而且这份问卷无法告诉你正确的输出应该是什么样的。

其结果是：数据集的形状不由用户想要什么决定，而是由哪些用户愿意点按钮决定。这种选择偏差会渗透到微调、奖励模型和 DPO 流水线中，悄悄地将模型导向极少数且缺乏代表性的少数人的偏好。而隐式信号——编辑率、重试率、会话放弃——则覆盖了所有接触产品的用户，无需任何点击，只是使用软件这一行为本身就能产生这些信号。

以下是如何设计反馈界面，将高保真训练信号作为产品使用的自然副产品生成，以及如何将这些信号接入训练流水线。

关于 Tian Pan