标注经济学：每种标签来源背后隐藏的代价

2026年4月19日 · 阅读需 9 分钟

Software Engineer

大多数团队在选择标注策略时，都会比较单价：众包工人大约 $0.08/条，LLM 生成不到$ 0.003/条，人类领域专家约 $1/条。跑一遍表格，选出看起来"足够好"的最便宜选项，然后上线。这套算法经常让团队陷入麻烦。

真正的决策并非只看单条标签的成本。每种标签来源都有一个隐藏的质量税——以垃圾梯度、误导性评估曲线，或花费数月排查生产故障的形式复利叠加；而干净的标签本可以在训练阶段就捕获这些问题。最便宜的来源往往是计入下游信任成本后最昂贵的一种。

四种来源及其真实权衡

专家标注的单价约为 $1/条，是最贵的选项，也是最常被用在不该用的地方、最少被用在该用的地方的一种。

专家标注的隐性税是吞吐量和一致性。一位神经科医生每小时可能标注 50 份放射报告；三人团队则会引入无法通过裁决完全消除的标注者间方差。获得 10,000 条干净标签需要数周时间，还要耗费精力搭建标注界面、撰写标注指南、组织对齐会议——第一条干净标签才算出炉。

适用场景：任务需要真正的领域知识，而这种知识无法在提示词中完全规范化（临床判断、法律歧义、安全关键边缘案例）；错误标签的代价极高；或你在构建用于校准其他标注方法的"黄金集"。

不适用场景：任务标准明确且客观——格式检查、结构化数据的事实抽取、规则清晰的分类。为一个逻辑规则即可可靠完成的决策付 $1，不值得。

众包平台承诺以低成本实现规模化。现实是平台质量已大幅下滑。标签不一致、工人钻规则漏洞、以及越来越多的非人类参与者，使得基准质量保证比五年前更弱。你为标签付了钱，又为降噪再付一次。

单条标注成本看起来有吸引力，但在文本任务上，众包工人的标注一致性通常低于训练有素的专家或现代 LLM。根据已发表的基准数据，情感分类或意图分类等有清晰标签的任务，众包工人与 LLM 在与真实标签的一致率上相差约 25 个百分点。

此处的隐性税是质量管理开销。你需要试点轮次、垃圾检测、每条 3–5 人多数投票，以及过滤流水线。质量控制后的有效成本往往接近原始 LLM 成本——还更慢。

众包工人仍适用于需要人类感知判断的任务（图像美感、语音自然度），或需要真正主观多样性的场景——即你希望从人类视角分布中采样，而非收敛到单一"正确"答案。对于这类任务，众包方差是信号，不是噪声。

经济账面上非常诱人：每条不到 $0.003，日吞吐量可达数百万条，除 API Key 外无需其他基础设施。而且对于许多任务，质量经得住考验。在文本分类基准上，最先进的 LLM 与真实标签的一致率约 88%，而熟练人工标注者约为 86%——且速度快 20 倍。

但合成生成有一种在聚合准确率数字中不会显现的失效模式：系统性偏差。在特定数据分布上训练的 LLM 会将该分布反映在其标注中。当你使用同一模型家族来生成标签和评估标签时，你构建了一个闭环——模型在给自己的作业打分。准确率看起来很高，生产性能却是另一回事。

需要警惕的具体失效模式：

LLM 生成标签适用场景：任务具有可验证结构（可查证答案的事实 QA、模式验证、格式合规），标注标准可以在提示词中完全规定，且你用这些标签做训练或过滤——而非最终评测的真实标签。

永远不要将 LLM 生成的标签作为生产评测的参考集。那是唯一需要不继承模型偏差的真实标签的地方。

加载中…

Let's stay in touch and Follow me for more thoughts and updates