标注经济学:每种标签来源背后隐藏的代价
大多数团队在选择标注策略时,都会比较单价:众包工人大约 0.003/条,人类领域专家约 $1/条。跑一遍表格,选出看起来"足够好"的最便宜选项,然后上线。这套算法经常让团队陷入麻烦。
真正的决策并非只看单条标签的成本。每种标签来源都有一个隐藏的质量税——以垃圾梯度、误导性评估曲线,或花费数月排查生产故障的形式复利叠加;而干净的标签本可以在训练阶段就捕获这些问题。最便宜的来源往往是计入下游信任成本后最昂贵的一种。
四种来源及其真实权衡
人类领域专家
专家标注的单价约为 $1/条,是最贵的选项,也是最常被用在不该用的地方、最少被用在该用的地方的一种。
专家标注的隐性税是吞吐量和一致性。一位神经科医生每小时可能标注 50 份放射报告;三人团队则会引入无法通过裁决完全消除的标注者间方差。获得 10,000 条干净标签需要数周时间,还要耗费精力搭建标注界面、撰写标注指南、组织对齐会议——第一条干净标签才算出炉。
适用场景:任务需要真正的领域知识,而这种知识无法在提示词中完全规范化(临床判断、法律歧义、安全关键边缘案例);错误标签的代价极高;或你在构建用于校准其他标注方法的"黄金集"。
不适用场景:任务标准明确且客观——格式检查、结构化数据的事实抽取、规则清晰的分类。为一个逻辑规则即可可靠完成的决策付 $1,不值得。
众包工人
众包平台承诺以低成本实现规模化。现实是平台质量已大幅下滑。标签不一致、工人钻规则漏洞、以及越来越多的非人类参与者,使得基准质量保证比五年前更弱。你为标签付了钱,又为降噪再付一次。
单条标注成本看起来有吸引力,但在文本任务上,众包工人的标注一致性通常低于训练有素的专家或现代 LLM。根据已发表的基准数据,情感分类或意图分类等有清晰标签的任务,众包工人与 LLM 在与真实标签的一致率上相差约 25 个百分点。
此处的隐性税是质量管理开销。你需要试点轮次、垃圾检测、每条 3–5 人多数投票,以及过滤流水线。质量控制后的有效成本往往接近原始 LLM 成本——还更慢。
众包工人仍适用于需要人类感知判断的任务(图像美感、语音自然度),或需要真正主观多样性的场景——即你希望从人类视角分布中采样,而非收敛到单一"正确"答案。对于这类任务,众包方差是信号,不是噪声。
LLM 合成生成
经济账面上非常诱人:每条不到 $0.003,日吞吐量可达数百万条,除 API Key 外无需其他基础设施。而且对于许多任务,质量经得住考验。在文本分类基准上,最先进的 LLM 与真实标签的一致率约 88%,而熟练人工标注者约为 86%——且速度快 20 倍。
但合成生成有一种在聚合准确率数字中不会显现的失效模式:系统性偏差。在特定数据分布上训练的 LLM 会将该分布反映在其标注中。当你使用同一模型家族来生成标签和评估标签时,你构建了一个闭环——模型在给自己的作业打分。准确率看起来很高,生产性能却是另一回事。
需要警惕的具体失效模式:
- 标签平滑伪影:即 使对模糊项,LLM 也倾向于给出高置信度标签,而人类会在此犹豫。训练信号看起来干净,模型变得脆弱。
- 分布偏差:如果标注模型经过 RLHF 倾向于某些响应风格,它会在标签中偏向这些风格。微调模型学会模仿标注者的风格,而非底层任务。
- 幻觉合理性:对于开放式生成任务,LLM 会产生看起来正确但微妙错误的标签,这些错误只在对抗性输入或边缘案例中才会浮现。
LLM 生成标签适用场景:任务具有可验证结构(可查证答案的事实 QA、模式验证、格式合规),标注标准可以在提示词中完全规定,且你用这些标签做训练或过滤——而非最终评测的真实标签。
永远不要将 LLM 生成的标签作为生产评测的参考集。那是唯一需要不继承模型偏差的真实标签的地方。
