跳到主要内容

6 篇博文 含有标签「annotation」

查看所有标签

标注经济学:每种标签来源背后隐藏的代价

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数团队在选择标注策略时,都会比较单价:众包工人大约 0.08/条,LLM生成不到0.08/条,LLM 生成不到 0.003/条,人类领域专家约 $1/条。跑一遍表格,选出看起来"足够好"的最便宜选项,然后上线。这套算法经常让团队陷入麻烦。

真正的决策并非只看单条标签的成本。每种标签来源都有一个隐藏的质量税——以垃圾梯度、误导性评估曲线,或花费数月排查生产故障的形式复利叠加;而干净的标签本可以在训练阶段就捕获这些问题。最便宜的来源往往是计入下游信任成本后最昂贵的一种。

你的标注流水线才是 AI 产品的真正瓶颈

· 阅读需 12 分钟
Tian Pan
Software Engineer

每个开发 AI 产品的团队最终都会发布一个反馈组件。点赞、点踩、或者星级评分,又或者是修正字段。组件上线了,数据流转了,但随后几周甚至几个月,模型却没有任何改变——而团队仍然坚信他们拥有一个有效的反馈闭环。

组件只是简单的部分。其背后的标注流水线(annotation pipeline)才是 AI 产品真正陷入停滞的地方。

标注人力工程:你的标注员就是生产基础设施

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的模型表现不佳,于是你开始深入审查训练数据。审查到一半时,你发现两位标注员对同一个边界案例给出了截然相反的标签——而两人都在遵循规范,因为规范本身存在歧义。你修正了规范,重新标注了受影响的样本,重新训练,找回了几个 F1 分数点。两个月后,同样的事情又发生了,只是换了一位标注员和另一个边界案例。

这不是标注供应商的问题,也不是数据质量工具的问题。这是一个基础设施问题——而你还没有把它当作基础设施问题来对待。

大多数工程团队处理标注的方式,就像处理会议室预订系统一样:采购工具、编写规范、雇几名外包人员、交付数据。当你只需要一次性标注数据集时,这套模式还算管用。但一旦标注成为持续驱动线上生产模型的活动——对于几乎所有从原型走向生产的团队而言,这已经是常态——这套模式就会彻底崩溃。

LLM作为标注器的质量控制:当标注者与学生共享训练数据

· 阅读需 11 分钟
Tian Pan
Software Engineer

这条流水线在纸面上看起来很合理:你有一个目标任务,没有人工标注样本,但有一个能力强大的大模型可用。于是你用该模型生成标签,再用这些标签微调一个更小的模型。发布,重复。

没有人足够重视的问题是:当你的标注模型和目标模型在同一批互联网数据上训练时会发生什么?而如今,它们越来越多地确实如此。

用稀疏标注构建 LLM 评估体系:你不需要一万个样本

· 阅读需 14 分钟
Tian Pan
Software Engineer

构建 LLM 应用的团队总会犯同一个错误:他们等待积累足够的标注数据之后,才肯投入评估基础设施建设。他们告诉自己需要 5000 个样本,或者 10000 个。评估系统始终停留在待办事项清单上,而"感觉不错"的主观判断代替了真正的指标度量。ZenML 对 1200 个生产部署的分析发现,即便是成熟的部署,非正式的直觉判断依然普遍存在——许多团队从未真正建立起系统性的评估机制。

数据量直觉是从经典机器学习时代借来的——在那个时代,更多的标注样本确实能稳定提升模型性能。但对于 LLM 评估,这个直觉基本上是错的。对稀疏基准测试的研究表明,20–40 个精心挑选的样本就能可靠地估算完整基准的排名,而 100 个样本产生的平均绝对误差低于 1%,与使用数千个样本相比相差无几。问题不在于数据量,而在于大多数团队跳过了使小规模评估集值得信赖的结构化流程。

本文介绍这个流程的实际操作方式:如何通过主动学习选取合适的样本,如何用弱监督大规模生成噪声标签,如何借助 LLM 评判者进行冷启动,以及如何判断你的小型评估集何时可以正式使用。

标注流水线是生产级基础设施

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数团队对待标注流水线的方式,就像对待他们 2019 年的 CI 脚本一样:它能运行,大部分时候如此,而且没人想去碰它。一个带有颜色标记行的共享电子表格。一个将任务路由到 Slack 频道的 Google 表单。三名承包商异步工作,在一个讨论串中对比笔记。

接着,一个模型发布后质量下降,评估(eval)以一种令人困惑的方向退化,事后分析(post-mortem)最终揭示了显而易见的事实:标签错了,而且没人构建任何东西来检测它。

标注不是一个数据问题。它是一个软件工程问题。那些以此方式对待它的团队——使用队列、模式(schemas)、监控和结构化的分歧处理——构建的 AI 产品会随着时间的推移而改进。而那些不这么做的团队则陷入了无法解释的重新标注循环。