当候选人说“我会直接用提示词解决”时,面试官之间出现的 40 分分歧
候选人在系统设计题上卡住了,停顿了两秒说:“我直接写个提示词(Prompt)就行。”你资历最深的面试官写下:强烈推荐录用——这正是 2026 年优秀工程师的工作方式。你资历第二深的面试官写下:不予录用——把问题丢给聊天机器人不叫工程。同样的五个字,同样的 40 分钟面试,同一张评分表上出现了 40 分的巨大差距。
候选人并没有搞砸你的面试环(Interview Loop),是你的面试环缺乏明确的观点。复盘会中最糟糕的部分不是分歧,而是每个面试官都如此确信自己的判断是正确的,以至于会议演变成了对 AI 本身的立场投票,而不是讨论这个人是否具备交付能力。
这不是候选人质量的问题,而是披着质量外壳的评分标准完整性问题。如果不进行对齐(Calibration),你的招聘标准就会随每周面试官的组合而波动,而不是取决于岗位真正的需求。
你从 2022 年照搬的评分标准,正在评判一个已不复存在的岗位
你正在运行的面试环几乎肯定建立在一种“工程能力”的定义之上,而这种定义早于你团队现在的日常工作模式。面试环检查候选人是否能从零开始实现一个小算法、分析时间复杂度、并在白板上讲解系统设计。这些检查本身没有错,只是它们对于公司 AI 工程师周二早上要做的事情来说,已经不再是核心支撑了。
周二早上的现实更接近于:阅读一段团队中没人写过的 4,000 行模块,判断 LLM 生成的首个修改草案哪里错了,驳回那些隐蔽的错误部分,接受那些微妙的正确部分,并且无论是否由模型编写,都要对结果负责。2022 年的评分标准考核的是 2026 年岗位很少使用的“从零实现”的能力,而对 2026 年岗位经常使用的“评审和编辑 AI 输出”的能力则完全没有给分。
因此,当候选人在没有展示底层推理的情况下直接跳到“我直接写个提示词就行”时,你的面试环没有一套公认的方法来区分两种截然不同的信号:一种是资深工程师,他们准确地识别出这是一个模型可以处理得很好的已解决问题;另一种是初级工程师,他们借此掩盖自己完全无法对问题进行推理的事实。两人给出的都是同样的五个字。但只有其中一个是你想雇佣的候选人。
分歧是数据,而不是噪音
在复盘会上看到 40 分的分歧时,标准的反应是更激烈地争辩、取平均分、或者听从资历最深的人。这三种反应都是错误的。这种分歧是你的面试环本周产生的最有价值的产物,将其视为计票问题而非信号提取问题,会导致招聘标准在没人察觉的情况下悄悄偏移多年。
“评分者间信度”(Inter-rater reliability,简称 IRR)是这个问题的枯燥统计学名称。当结构化面试研究报告称,在经过对齐工作后,评分者间信度从 0.37 左右上升到 0.67 左右时,它真正的意思是:在对齐之前,你的面试官达成一致的概率仅比随机撞大运高一点点;而在对齐之后,他们的一致性足以让面试小组的决定具有意义。在“我直接写个提示词就行”上出现的 40 分差距,是 IRR 低于 0.4 的明显特征。
解决方法不是增加更多面试官,不是制定更详细的评分标准,也不是延长复盘时间。而是一个对齐会议,让面试小组坐下来针对同一个录制的候选人回答,并挖掘出评分差异背后的原因。不是“我觉得应该强烈推荐录用”对比“我觉得不予录用”,而是“我给出强烈推荐录用,是因为驳回 AI 输出需要与从零开始编写同样的判断力,而候选人在追问中展示了这种判断力”对比“我给出不予录用,是因为候选人没有解释他们会写什么提示词或如何验证它,我无法仅凭这个回答判断其是否具备这种判断力”。这是两个不同的评分项。而现在,它们被压缩成了一个分数。
