跳到主要内容

Eval 瓶颈:你的 Eval 工程师现在就是路线图

· 阅读需 13 分钟
Tian Pan
Software Engineer

你的 AI 路线图的瓶颈不是 GPU 容量、模型可用性或 Prompt 工程的品味。它是那一两个真正懂得如何构建能发现回归(regression)的评估(eval)的工程师的日程表。每个负责功能的产品经理都在他们的队列中。每一次模型升级都在他们的队列中。每一次群体漂移、每一次 Prompt 修改、每一个“这个评审模型(judge)是否仍然校准”的问题,最终都会进入同一个收件箱。而这位工程师在本季度已经说了三次“不,这还没准备好”,两次被否决,眼睁睁看着回归在生产环境中复合增长,现在正在更新他们的 LinkedIn。

这就是评估瓶颈,大多数组织在被咬到之前都意识不到它的存在。到 2025 年为止,显而易见的工作重点是 AI 工程师——招聘 AI 工程师、发布 AI 功能、迭代 Prompt、更换模型。到了 2026 年第一季度,吞吐量问题下移了一层。将 AI 团队人数翻倍的团队发现,增加更多功能工程师并没有让功能发布得更快,因为每个功能仍然需要一个评估(eval),而负责评估的工程师还是那个人。

这种模式异常具体。一位参加过评估课程、主持过内部研讨会并构建了前三个评估套件的高级工程师,成为了组织中事实上的评估专家。十二个月后,他们拥有了整个评估版图:评分标准(rubric)编写、评审模型校准、黄金数据集(golden-set)维护、测试框架(harness)运行、回归排查、模型升级签发。他们是每个 AI 版本发布的唯一通过点。他们不是经理。他们没有杠杆。而且组织还没有注意到他们是核心支柱,因为他们的工作表现为“我们在发布前发现了错误”——一个没人会放在获胜报告(wins deck)里的非事件。

评估是限速试剂

借用一个化学术语:限速试剂(rate-limiting reagent)是反应中首先耗尽并限制反应速率的投入物,无论你拥有多少其他投入物。在 AI 功能流水线中,这种试剂就是评估工程(eval engineering)——不是模型访问权,不是 Prompt 迭代,不是数据标注能力,也不是平台基础设施。

这种不对称是结构性的。编写一个调用模型的功能需要几个小时。而编写一个能告诉你该功能是否真正起作用的评估则需要几天,有时甚至几周:你必须定义任务,决定什么是“正确”,构建具有代表性的数据集,编写评分器,根据人工判断验证评分器,设置阈值,将运行接入 CI,然后在功能更改时重新验证。Hamel Husain 和 Shreya Shankar 的评估课程已经吸引了 40 多家公司的 3,000 多名工程师,正是因为这门学科并不简单——你可以在一个周末教会 Prompt 工程;而评估工程需要一个季度的实践才能让人可靠地掌握。

当这门学科只存在于一两个人的脑子里时,组织中的所有其他能力都会绕着一个固定点加速。团队编写 Prompt 的速度超过了评估验证的速度。团队更换模型的速度超过了评估认证的速度。团队发布功能的数量超过了评估覆盖的范围。因此,要么覆盖范围缩小(无声的路径),要么发布节奏停滞(有声的路径)。大多数组织会选择无声的路径,直到生产环境中出现严重问题。

你真正需要的配比

在一个成熟的 AI 组织中,评估工程师与功能工程师的比例更接近 1:3 或 1:5,而不是目前大多数组织所采用的 1:15。在这个比例下,一名评估工程师可以可靠地负责一系列功能的评分标准工作,而不会成为所有功能的合并门禁(merge gate)。

为什么是这些数字而不是更低?因为评估工作具有不可减少的单项功能成本:每种不同的任务类型都需要自己的评分标准、自己的数据集、自己的评审模型和自己的校准。五名功能工程师可以在一个季度内发布五个不同的 AI 界面;而一名评估工程师无法在一个季度内从头开始编写五个全新的评估套件。如果评估工程的核心是构建可供功能工程师扩展的共享基础设施,那么这个数学题就能解开,但实现这一点的平台投资需要一年的时间,而大多数组织还没开始。

为什么不更高?因为纯粹的 1:1 会在评估上过度投入,代价是牺牲了被评估的功能。合适的比例取决于有多少评估工作已经被平台化,而不是作为每个功能的定制工作。在非平台化的状态下,比例大约是 1:3。在良好平台化的状态下,比例可以延伸到 1:8。

关于人员编制有两个警告。首先,这个比例是指那些能够可靠地设计评估的工程师——编写评分标准、验证标注员、解释回归。这不包括那些只能运行现有评估的工程师,后者的群体要大得多。其次,这个比例假设评估工程师是在全职从事评估工程,而不是兼职做评估工程师,另一半时间做功能工程师。角色的分裂会毁掉这两部分工作。

解耦评分标准与测试框架的平台投资

最昂贵的评估团队错误是将每个评估都留作定制项目——一个一次性的 Python 文件,一个一次性的数据集,一个手工连接的一次性评分器。那么每一个新功能都需要评估工程师从头开始编写,队列就会不断堆积。

打破这个循环的平台投资分为三个层次。测试框架层(Harness layer)——用于运行评估、捕获 Trace、比较不同模型和 Prompt 版本的运行结果以及显示回归的通用基础设施——在你的组织内部应该是标准化的。像 EleutherAI 的 lm-evaluation-harness、OpenAI 的 evals 注册表以及现在主导 2026 年 LLM-ops 领域的商业平台,都瞄准了这一层。选择一个,部署它,停止让个人工程师重新发明轮子。

**评分标准库层(Rubric library layer)**是杠杆真正发挥作用的地方。大多数生产环境中的 AI 功能都属于有限的任务形态:提取、分类、摘要、排名、多步工具调用、对话质量、拒绝正确性。每种形态都有规范的评分标准模式。如果你的平台团队将这些构建为带有参数化标准的模板——“针对发票调整这个提取标准”,而不是“从头开始编写一个发票提取标准”——功能工程师就可以扩展现有的评估,而不是在评估工程师的日程表里排队。评估工程师随后负责模板,而不是实例,每个功能的耗时会降低一个数量级。

**评审模型校准层(Judge calibration layer)**是大多数平台仍然失败的地方。未经人工标签验证的 LLM-as-judge(以模型为裁判)只是在演戏。平台需要一个内置的校准循环——抽取 N 个 Trace,获取人工标签,测量评审模型的一致性,显示精确率/召回率数据,在评审模型达标之前禁止其进入生产环境。如果没有这个,每个团队都会临时进行校准,而且通常会完全跳过。有了它,平台团队就在工具链中构建了一个评审质量的 SLO。

领导力的认知重构:评测工程师不是 QA

组织模式中最具破坏性的错误,就是将评测工程(Eval Engineering)归入 QA 汇报线,并按 QA 的薪资标准定价。这与当年那批组织失去早期机器学习(ML)工程师的错误如出一辙——当时他们被按“数据管道水管工”定价,随后便跳槽到了那些认可该学科、薪资高出 40% 的公司。

评测工程师是组织中区分仪表盘上三种不同情况的核心手段:模型确实变好了、Prompt 在测试集上碰巧运气更好、以及裁判模型(Judge)变得更宽松了。混淆这三者正是导致线上倒退(Regressions)的原因。招聘 QA 测试员是为了针对确定性规范验证确定性系统;而招聘评测工程师则是为了给随机系统构建测量装置,这种系统的输出是无法预先指定的。两者的技能重叠度大约只有 20%。

薪资差距是现实且量化的。2026 年美国 AI 工程师的市场基本工资在 14 万至 18.5 万美元之间,总薪酬通常超过 20 万美元,资深级别甚至能达到 30 万美元以上。如果将评测工程误划为 QA 职能,薪资会滞后 20%–30%。一个能够胜任这项工作的专家只需三个月就能拿到一份符合市场价的竞对 Offer,而那些没有重新定价的组织将会失去他们——这通常发生在评测工程师担任了一整年关键发布门禁(Release Gate)之后。

领导层必须内化的认知重构是:评测工程师是那个能告诉你即将发布的模型升级是否真的是“升级”的人。没有他们,你就在凭感觉飞行,每一个“新模型感觉更聪明”的说法在生产环境告诉你真相之前都是无法伪证的。将该角色定价为测试人员是对该职能的误诊。

失效模式:三步走序列

最常见的组织级评测失败遵循一个固定的三步走序列,一旦见过你就能预测它。第一步:评测工程师标记某个功能尚未就绪——新的 Prompt 在尾部风险切片上表现倒退,裁判模型尚未重新校准,或者数据集没有覆盖到该功能实际服务的场景。第二步:PM 在时间进度压力下向 VP 汇报。VP 看着仪表盘,看到大部分是绿色的,认为评测工程师过于纠结细节。于是功能上线。第三步:倒退积累得足够慢,以至于没人将其归因于那次发布,评测工程师在没人读的复盘报告中记录了这一模式,三个月后他们离职了。

随后组织会同时发现两个事实:功能倒退已经消耗了真实的客户信任,而重新招人需要六个月,因为该角色定价错误且人才储备匮乏。三个主动提出“接手评测工作”的功能工程师无法替代离职者,因为这项工作从来不仅仅是运行评测——而是知道该写哪些评测、信任哪个裁判模型、以及坚持哪些阈值。

干预点在于第二步。如果领导力文化将评测工程师的“未就绪”视为发布门禁信号而非谈判筹码,这就是能够积累评测覆盖率的组织与不断堆积评测债务的组织之间的分水岭。

评测债务应纳入工程积压任务

将评测缺口视为一等公民的工程工单(Tickets),而不是评测工程师脑子里的积压任务。当一个功能在没有评测的情况下上线时,当天就应提交一份评测债务工单,其优先级字段与任何其他工程工作相同。当模型升级进度超过了校准更新时,记录它。当样本漂移未被调查时,记录它。这种可见性会迫使组织要么投入人力处理,要么有意识地接受风险——这都比现状要好,即任务队列只存在于一个工程师的脑子里,直到他们离职面谈时才被发现。

轮岗计划是人力问题的另一半解决方案。每季度挑选一名优秀的系统工程师,将他们嵌入评测团队 90 天。当他们回到功能开发工作中时,已经能熟练掌握评分标准(Rubric)设计、裁判校准和追踪剖析(Trace Anatomy)。经过八轮轮岗,你的组织将把评测变成一种共享能力,而非一种依赖个人的“英雄职能”,即便有人离职,这项学科也能延续下去。第一批轮岗代价高昂——评测团队的产出速度会在培训期间下降——但增长曲线是复合的,到第二年,瓶颈就会消失。

2026 年的变化

在未来两个季度想通这一点的组织将获得复利优势。他们的功能工程师可以针对平台化的库自助完成评测工作;他们的评测工程师专注于模板和校准;他们的领导层知道评测工程师是什么并支付相应的薪酬。他们的发布节奏加快并非因为交付更快,而是因为不再让每一次发布都挤在同一个人的日程表上。

没想通的组织只能在撞到瓶颈时才意识到它的存在。他们会雇用更多的功能工程师,交付更多的功能,积累更多的评测债务,并最终失去那个支撑全局的工程师。这个教训只能通过惨痛的方式习得,而恢复期将以季度为单位计算。

这一切背后的架构性认知是:评测工程不是 AI 开发生命周期的一个阶段,它是生命周期的限速试剂。如果其他角色都配置了扩展规模的人力,唯独让评测保持为“英雄职能”,那么你建立的组织产出 AI 功能的速度将超过验证它们的速度。那不是速度,那是债务。

References:Let's stay in touch and Follow me for more thoughts and updates