跳到主要内容

AI 工程师的三种品味:为什么 Prompt、Eval 和 Guardrail 往往无法共存于一个大脑中

· 阅读需 13 分钟
Tian Pan
Software Engineer

我今年雇佣的三位最优秀的 AI 工程师,如果让他们互相面试,可能都会被刷掉。那个能写出在模型升级后依然稳健的提示词(prompt)的人,这辈子没写过一个有用的评估(eval)用例。那个能设计出捕捉到关键故障的评估集的人,写的提示词其他工程师根本不想去维护或扩展。那个能设计出既能“故障闭合”(fail closed)又不阻塞正常路径的护栏(guardrail)的人,对另外两个人的看法我在这里不便多说。

职级体系将他们三人都称为“AI 工程师”。定级委员会在对比他们的晋升材料时,仿佛他们做的是同样的工作。其实不然。

接下来的论点是:“AI 工程”并非一种技能,而是至少包含三种。这三种技能依赖于不同的直觉,并奖励不同的反应机制。如果招聘或晋升时将它们混为一谈,就会产生畸形的系统——所有的组件指标看起来都是绿色的,但用户感知的质量却滑向了没人负责的深渊。

外表看似相同的三种技能

从外表看,这三位工程师每天都泡在 notebook、评估仪表盘和模型的聊天窗口中。他们产出的成果——提示词(prompt)、评估集(eval set)、护栏层(guardrail layer)——甚至存在于同一个代码库的相邻文件中。那些从未亲手构建过这三项工作的招聘经理会告诉你,这是“同一份工作的不同侧面”。其实不是。这是三份独立的工作,只不过碰巧共享了同一个工具界面。

提示词品味(Prompt taste) 是一种直觉,让你能写出模型在今天能执行、并在下个季度底层权重变化后依然能执行的指令。它包含了一套工作理论:模型如何解读歧义、如何权衡示例与系统指令,以及哪些构建方式在不同版本间是稳定的,而哪些只是针对特定版本的“奇技淫巧”。资深提示词工程师读到一段表现异常的提示词,能立刻想到三种消融实验方案;而初级工程师则会从头重写,并自认为有所改进。

评估品味(Eval taste) 是一种直觉,让你能编写出捕捉到真正伤害用户的故障、区分信号与采样噪声,并能识别出某项指标何时已经脱离了其原本测量目标的测试用例。资深评估工程师看着包含 200 个用例的测试套件,能立刻识别出哪 15 个用例在发挥核心作用,哪些只是噪声;而初级工程师会捍卫每一个测试用例,理由是它曾经抓到一个 Bug。这与编写提示词的本能完全不同。2026 年行业标准的“三层评估”(自动化指标、LLM 作为评判者、人工审核)只有在有人具备能够决定每一层应该和不应该测量什么的品味时才能发挥作用。这种决策位于任何框架的上游。

护栏品味(Guardrail taste) 是一种直觉,让你能设计出在系统可用性(uptime)的重要性低于错误答案的案例中实现“故障闭合”(fail closed)的安全层,并在相反的情况下优雅降级。这是一种在上线审核 API 之前,先问“如果审核 API 挂了,这一层该怎么办”的纪律。资深护栏工程师会在你开口前告诉你,在用户和模型之间的四个层级中,哪些是“故障开启”(fail open),哪些是“故障闭合”,以及原因是什么;而初级工程师只会告诉你这些层级的存在。

这三种直觉是无法转化的。一位擅长编写评估的优秀提示词工程师,往往会写出证明其提示词效果良好的评估。一位擅长编写护栏的优秀评估工程师,往往会写出仅能通过其自身测试套件的护栏。而一位编写提示词的优秀护栏工程师,则会写出法律部门允许发布的最谨慎、但也是最没用的提示词。当一种本能被应用到相邻的领域时,就会产生典型的失效模式。

畸形的招聘最终会交付什么

当团队只针对一种品味进行招聘,并假设其他品味会随之而来时,结果就是典型的“破碎系统”。通常只需看十分钟指标,你就能猜出缺了哪种品味。

在错误指标的基准测试中表现优异的提示词。 提示词写得很漂亮,仪表盘全是绿色的,但用户感知的质量已经下降了两个月。评估集是由提示词作者编写的,他针对提示词本来就擅长的案例进行了优化。本可以捕捉到性能退化的指标(比如长尾跟进问题中的忠实度)并不存在,因为团队中没人的评估品味足以意识到这一点。

在无人能扩展的提示词上运行的优秀评估。 评估套件令人艳羡:来自生产环境的案例、对抗性输入、统计置信区间,应有尽有。而该套件测试的提示词是一个包含 2000 个 token 的庞然大物,已经五个月没动过了,因为唯一理解其构造的人已经离职,而下一位尝试添加新功能的工程师会因为看似无关的原因破坏掉四个评估用例。团队以牺牲可扩展性为代价,换取了回归测试的覆盖率。

在错误层级通过安全审查的功能上部署的优秀护栏。 护栏工程师在模型输出阶段设计了一个精美的 PII 脱敏层。然而,PII 已经存在于检索索引中了,因为数据摄入流程在写入时没有进行脱敏。护栏捕捉到了工程师设计时预想的泄露,却漏掉了实际发生的泄露,因为该层级处于技术栈中错误的位置。层级的放置是一个护栏品味问题,而团队中没有能提出这个问题的人。

在这三种失效模式中,每个成果的负责人都可以在仪表盘上展示其指标是绿色的。但体验这套集成系统的用户却无话可说;他们只会选择离开。

真正起到筛选作用的面试信号

2026 年的大多数 AI 工程面试仍在测试表层技能——应聘者是否会写提示词,能否描述测评框架,或者能否列举护栏模式。这些都不是对品味的测试。它们是词汇测试,一个拥有三个周末经验并配有 LLM 导师的应聘者都能通过。你想要筛选的是底层的直觉,而筛选品味的方法是给应聘者提供有缺陷的产出物,并要求他们采取行动。

对于提示词品味,给应聘者一个表现异常的提示词,并要求他们对其进行消融实验(ablate)。不要要求他们修复它。问他们会按什么顺序逐一更改哪三样东西,以及他们预期每次更改会产生什么效果。具备提示词品味的应聘者会为每次消融提出一个假设;不具备的则会重写整个提示词,并称重写是一种改进。区分性的信号在于他们能否在脑海中构建一个“模型的模型”,并推断每种构建方式的作用。

对于测评(eval)品味,给应聘者一个包含 30 个案例的测评集,问他们会删除哪一个测试。具备测评品味的应聘者会识别出一个要么与另一个重复、要么在测量噪音、要么在测量产品不再关心的行为的案例,并解释原因。不具备的则会拒绝删除任何东西,因为每个测试“都可能发现漏洞”。追求覆盖率最大化是露馅的表现;无情的修剪才是真本事。

对于护栏(guardrail)品味,给应聘者一个包含 7 个工具的工具目录,问他们会拒绝让智能体执行哪种组合。具备护栏品味的应聘者会识别出一个链条——例如“从不可信来源读取”加“写入特权汇聚点”,或者“读取私有数据”加“通过侧信道外泄”——并清晰地阐述威胁模型。不具备的则会说“所有工具都已经过单独审查”。区分性信号在于他们思考的是组合而非枚举。

这些提示都不是陷阱。每一个都是五分钟的对话。它们产生的信号不是“应聘者是否得到了正确答案”,而是“应聘者是否有一套词汇来思考这个产出物”。一旦你观察过几位应聘者处理这些问题,品味的差异就会变得显而易见,甚至令人尴尬。

暴露差距的轮岗制度

招聘筛选只能防范最坏的情况。更难的问题是,团队中已有的工程师拥有不对称的优势,而团队通常直到某些东西崩溃时,才知道每位工程师的品味究竟在哪个环节。最廉价的发现方法是让每位资深 IC 在加入团队的第一季度分别负责一种产出物。

不是“提供咨询”——而是负责。提示词作者提交测评集。测评负责人发布护栏变更。护栏工程师重写系统提示词。每轮轮岗都会产生一个该工程师的强项无法为其提供保护的产出物,团队可以观察每位工程师在脱离其主导直觉时表现如何。

重点不在于让每位工程师在所有三个方面都同样出色。这不现实,也不是目标。重点在于通过低风险的工作,暴露每位工程师的本能会产生可预测错误的环节,以便日后在弱项领域信任该工程师处理真实的产出物时,团队知道要从互补的强项中配备第二双眼睛进行把关。经历过这种轮岗的定级委员会(Calibration committees)能够以原本无法实现的方式回答“这位工程师的品味究竟在哪里”。

一个有用的副作用是:轮岗还消解了潜意识中的等级制度,即认为提示词工作是“真正的工程”,而测评或护栏工作是“支持性的”。一旦每个人都发布过有缺陷的测评和由于“故障开启(fail-open)”导致的事故,对另外两种品味的尊重就会大幅提升,跨团队的交接也会少一些防御性。

职级体系在定级中说谎

将这三种品味视为同一种技能的最深重代价是在定级会议室中支付的。一份资深晋升材料理应展示影响力、判断力和工艺。当职级体系中只有单一的“AI 工程师”赛道时,材料中的证据就会以应聘者恰好擅长的衡量标准(currency)呈现:提示词工程师带来的是模型升级后的生存故事,测评工程师带来的是捕获回归测试的数量,护栏工程师带来的则是防止事故的叙述。这些都没错,但它们都不具备可比性。

委员会在面对三种不同衡量标准的材料时,会退而求其次,采用资历最深的委员个人所使用的那套标准。如果评审小组中的资深人员是提示词工程师,测评工程师的材料会被解读为“这半年没上线功能”。如果资深人员是护栏工程师,提示词工程师的材料则会被解读为“上线快,但缺乏事故纪律”。晋升结果更多取决于评审小组的构成而非应聘者本身,而应聘者会敏锐地察觉到这一点。

解决方法不是将“AI 工程师”拆分为三个独立的职级。这会过度矫正,导致专业分工僵化,并使跨领域轮岗变得不可能。解决方法是在职级体系中明确列出这三种衡量标准,并要求材料作者声明其证据属于哪一种,然后要求委员会根据声明的标准而非评审小组默认的标准进行评估。委员会的工作变成了“这份证据在它声称的标准下是否强力”,而不是“这份证据是否看起来像我会带来的那种证据”。这是一个微小的文字调整,却会带来巨大的定级影响。

职级体系的改变还迫使领导层明确团队的人才组合。如果一半的资深工程师都在以提示词为标准进行评估,而团队没有资深测评负责人,职级体系会让这一点在定级时变得显而易见,而不是在 18 个月后测评覆盖缺口酿成质量事故时才被发现。

组织层面的启示

“AI 工程”并非单一技能。那种假装它是单一技能的职级体系,培养出来的工程师只在某一个维度上很强,他们的盲点会在三种产物之间的交界处叠加。这会导致团队交付的系统中,虽然仪表盘上的指标全绿,但用户却在流失。招聘筛选、轮岗和定级标准是三种独立的纠偏手段,团队只要采用其中任何一种都会见效;而做到这三点的团队,将在用户发现之前就察觉到“接缝处”的 Bug。

如果你只能从中记住一件事,那就是:下次你为“AI 工程师”撰写职位描述时,请写出三份。然后审视你现有的团队和你期望拥有的团队,看看这三类中,哪两类是你一直在默默少招的。

References:Let's stay in touch and Follow me for more thoughts and updates