2 篇博文含有标签「data-labeling」

那个定价模型假设提示词由人类编写的数据标注商

2026年6月2日 · 阅读需 12 分钟

Software Engineer

你的每美元标签（labels-per-dollar）仪表盘是团队评审中最亮眼的一行，但它在对你撒谎。分母是你 2023 年与标注供应商谈妥的按任务计费率，那时人类研究负责人会亲手编写每个标注提示词（prompt），修改两次，请同事审阅，一周可能才提交 40 个提示词。分子是通过 API 返回的已完成任务数量。在过去的三个月里，你的团队悄悄停止了手动编写提示词，转而使用大语言模型（LLM）生成。LLM 每两秒就能生成一个提示词，边际成本几乎为零。你的每美元标签指标在上升，而唯一知道这个指标毫无意义的人是供应商的客户经理，他正看着利润率被压缩，并准备发送一份采购团队会将其视为涨价的合同修正案。

这种错位并不是供应商的问题。这反映出合同中关于工作流的假设已不再成立。这些假设与你当前行为之间的差距，正是一方在静默吸收的剩余价值，直到续约周期迫使双方进行价格发现（price-discovery）对话。先注意到错位的一方将决定新的价格。

你的标注流水线才是 AI 产品的真正瓶颈

2026年4月17日 · 阅读需 12 分钟

Tian Pan

Software Engineer

每个开发 AI 产品的团队最终都会发布一个反馈组件。点赞、点踩、或者星级评分，又或者是修正字段。组件上线了，数据流转了，但随后几周甚至几个月，模型却没有任何改变——而团队仍然坚信他们拥有一个有效的反馈闭环。

组件只是简单的部分。其背后的标注流水线（annotation pipeline）才是 AI 产品真正陷入停滞的地方。

关于 Tian Pan