那个定价模型假设提示词由人类编写的数据标注商
你的每美元标签(labels-per-dollar)仪表盘是团队评审中最亮眼的一行,但它在对你撒谎。分母是你 2023 年与标注供应商谈妥的按任务计费率,那时人类研究负责人会亲手编写每个标注提示词(prompt),修改两次,请同事审阅,一周可能才提交 40 个提示词。分子是通过 API 返回的已完成任务数量。在过去的三个月里,你的团队悄悄停止了手动编写提示词,转而使用大语言模型(LLM)生成。LLM 每两秒就能生成一个提示词,边际成本几乎为零。你的每美元标签指标在上升,而唯一知道这个指标毫无意义的人是供应商的客户经理,他正看着利润率被压缩,并准备发送一份采购团队会将其视为涨价的合同修正案。
这种错位并不是供应商的问题。这反映出合同中关于工作流的假设已不再成立。这些假设与你当前行为之间的差距,正是一方在静默吸收的剩余价值,直到续约周期迫使双方进行价格发现(price-discovery)对话。先注意到错位的一方将决定新的价格。
按任务定价是对工作负载形态的承诺,而不只是成本
按任务计费率并不是一种单位经济效益的陈述。它是对供应商将收到的任务 分布 的一次博弈——包括任务数量、复杂程度、重复性、每分钟所需判断量以及回复长度。供应商根据预设的工作负载形态定价,并围绕其构建吞吐量计划:平台上保留多少标注员、配置何种复杂程度的人员比例、队列深度的警报阈值应设为多少。
2024 年的参考指标极具启发性。众包偏好排序的价格为 每个排序 0.50 美元到 2 美元。领域专家排序的价格为 5 到 10 美元。演示数据(即标注员编写完整回答而非对现有回答排序)的一万个样本成本在 5 万到 30 万美元之间。所有这些费率都假设输入给标注员的提示词是瓶颈。拥有判断力的人编写、编辑并决定它值得发送。这种“门控功能”决定了最终到达标注员手中的内容形态。
当你的团队用大批量起草提示词的 LLM 取代这种门控功能时,供应商在计费系统中看到的依然是相同的按任务计费率在跳动。但上游的一切都变了:你自身质量标准产生的拒绝率现在被直接转嫁到了他们的队列中,而不是在你的提示词编写过程中被拦截;提示词的复杂度分布倾向于 LLM 容易生成的类型;每个任务的标注耗时曲线也发生了偏移,因为 LLM 起草的提示词往往更长、更冗长,在标注员执行操作前需要更多的阅读 时间。
供应商的按任务费率没有变,但他们的单个任务 成本 变了。两者之间的差距就是他们正在吸收的剩余价值,而你唯一衡量到的只是仪表盘上显示的每美元标签指标有所改善。
组织失效模式:针对外部定价瓶颈的吞吐量优化
负责提示词生成流水线的团队,并不是签署标注合同的团队。签署合同的团队,也不是查看每美元标签仪表盘的团队。而查看仪表盘的团队,并不了解供应商的成本结构或其队列组合。
这是标准机器学习组织中“瓶颈发现”问题的反转。通常瓶颈是内部的——例如推理速率限制、GPU 池、人工审核员——团队会针对它优化吞吐量,直到下游环节崩溃并显现出真正的约束。当瓶颈是 外部定价 且价格由合同固定时,优化过程会静默地侵蚀供应商的利润。你这边不会出任何问题:吞吐量上升,单位成本看起来很平稳,仪表盘上的故事很完美。你收到的唯一信号,将是六个月后供应商首席财务官(CFO)最终完成客群分析,显示你的账户毛利率变为负值时发出的合同修正案。
等修正案到达时,它在采购团队的队列中被视为涨价,而非工作负载形态的修正。采购团队会透过他们惯用的视角来看待供应商续约:费率在市场上是否有竞争力?供应商是否试图在续约窗口压榨剩余价值?我们是否可以找竞争对手?这些问题都没有触及真实发生的情况:即你团队发送 的工作负载已不再符合合同约定的定价范畴。
供应商的客户经理往往也不会点破这一点,因为这样做等同于承认原始费率是被他们自己缺乏监控手段的合同所损害的。因此,重新谈判变成了对本应按维度重构的费率进行百分比折扣的拉锯战,双方最终都不欢而散。
审计规范:将工作负载形态漂移视为一等指标
将每一个涉及 AI 工作流的外部定价合同,都视为一个需要根据内部工作流变化节奏重新验证定价维度的合同——而这种节奏现在的衡量单位是周,而非续约周期。
- https://www.basic.ai/blog-post/how-much-do-data-annotation-services-cost-complete-guide-2025
- https://www.gdsonline.tech/data-annotation-pricing/
- https://sacra.com/c/surge-ai/
- https://en.wikipedia.org/wiki/Scale_AI
- https://www.lightly.ai/blog/best-data-annotation-companies
- https://agentcalc.com/rlhf-preference-data-cost-calculator
- https://labelyourdata.com/articles/llm-as-a-judge
- https://galileo.ai/blog/llm-as-a-judge-vs-human-evaluation
- https://www.opentrain.ai/solutions/rlhf-and-preference-data/
- https://gun.io/news/2025/12/scale-ai-alternatives-for-enterprise-ai-teams/
- https://intuitionlabs.ai/articles/rlhf-platforms-biotech-comparison
- https://www.iteratorshq.com/blog/data-labeling-for-llm-ai-what-works-what-fails-what-costs/
- https://kili-technology.com/large-language-models-llms/data-labeling-and-large-language-models-training
- https://atlan.com/know/data-labeling-best-practices-llms/
- https://datawizard.cloud/data-governance-checklist-for-enterprises-buying-ai-platform
