跳到主要内容

AI 面试崩塌:工程招聘已失去筛选信号

· 阅读需 12 分钟
Tian Pan
Software Engineer

信号消失了。在最近对 19,368 场技术面试的审计中,38.5% 的候选人被标记为存在 AI 辅助作弊行为,其中技术岗位的作弊比例高达 48%,初级候选人的作弊率几乎是资深候选人的两倍。更令人堪忧的是:61% 被检测到的作弊者分数超过了及格线。如果没有检测层,他们本可以晋级。面试作为一种评估工具,已经不再能衡量它最初设计要衡量的东西了。

这并不是针对当今年轻人的道德恐慌,而是评估工具的机械性失效。技术面试曾被校准为一个特定的世界:候选人在时间压力下,在陌生的环境中,必须凭记忆和第一性原理编写出正确的代码。这种约束——即让信号清晰可辨的关键——已被在第二台设备上运行的免费聊天窗口瓦解了。每一家仍在进行 LeetCode 式筛选的公司,现在都在花钱对一场考生可以轻易外包的考试进行排名。

认真对待这一现状的团队已经向两个方向做出了反应。要么他们接受候选人有模型参与(model in the loop)的事实,并围绕这一事实重新设计面试;要么他们在检测和监考上加倍投入,却发现这场军备竞赛在开始之前就已经输了。这两条路径都极具启发性。第一条路更难、更慢,但能产生更好的招聘效果。第二条路则产生了一场面试作秀(interview theater),它对诚实的候选人充满敌意,而对不诚实的候选人来说则是透明的。

旧的信号纯属偶然,且已不复存在

LeetCode 之所以能奏效十年,并不是因为它衡量了工程能力。它衡量的是在特定约束条件下与工程能力相关的东西:在没有外部帮助的情况下,实时为候选人从未见过的问题提供可行的解决方案。这种相关性一直比面试官标榜的要弱,但它的管理成本低且难以作弊,而“难以作弊”承担了大部分职能。

一旦剥离了反作弊约束,这种相关性就会崩塌。今天,将一个 LeetCode 中等难度题目输入任何前沿模型,在你还没粘贴完提示词之前,你就能得到一个可行的解决方案。Cluely 和 Interview Coder 在第二块屏幕上运行隐形图层,通过转录面试官的音频来提供答案。语音模式的 ChatGPT 会在候选人“大声思考”是否使用哈希表时,在他们耳边低声提示方案。候选人不需要多么高明,工具已经抽象掉了复杂性。

关键证据在于,检测率和工具采用率都在攀升,而不是趋于收敛。在 2025 年下半年,专用作弊工具的使用率翻了一番,从 15% 增加到 35% 的候选人。防御者正拼命追赶,却依然落后。如果你面试的有效性取决于检测供应商对抗不断变化的目标的胜率,那么你的面试本质上是与作弊工具提供商签署的一份服务等级协议,而不是招聘流程。

“检测优先”是一场必输的战争

现在有一整类初创公司在销售 AI 作弊检测——视线追踪、击键节奏、响应延迟分析、屏幕共享取证。这些方案听起来很合理,报告的指标也很真实,但没有一个能解决底层问题。

第一个失败模式是误报。真正思考的优秀候选人给出的答案往往不如照本宣科的人完美。他们会停顿,会回溯,会在解题中途重新表述问题。一个针对“可疑犹豫模式”训练的检测器会以更高的比率标记出正是你想要的这些候选人。最终你过滤掉了你想要的人,却放行了那些能够流利粘贴模型输出而又不触发模式匹配器的人。

第二个失败模式是文化。一旦面试官被告知要“留意作弊信号”,面试就不再是一个协作解决问题的对话,而变成了一个对抗式的观察练习。候选人能感觉到这一点。面试官在提问追问时表现得更差,因为现在的每一个追问听起来都像是在指控。诚实的候选人的面试体验比不诚实的更差,因为不诚实的人读的是预设好常见追问的脚本。

第三个失败模式彻底杀死了这一策略:检测门槛每个季度都在变动。Anthropic 公开记录了这种循环。他们的离线测试(take-home test)在 2024 年初还有效。Claude Opus 4 达到了大多数人类申请者的水平。Claude Opus 4.5 达到了顶尖申请者的水平。团队重新设计测试并上线,而下一个模型版本的发布又使重新设计失效。构建模型的公司都无法构建出一个模型无法通过的评估,我们其他人又凭什么假装自己的评估能撑得住?

“禁止使用 AI”的政策既无法执行,且存在隐性不公

招聘负责人最常见的反应是在面试邀请顶部加一行政策说明:“本次评估期间严禁使用 AI 工具。”有些人做得更绝,要求候选人共享全屏,禁用其他设备,并全程开启摄像头对准面部坐上一小时。

这些政策的问题不在于它们无法阻止作弊。问题在于它们主要阻止了诚实的作弊行为。一个愿意违反政策的候选人会在第二台笔记本电脑或镜头外的手机上运行作弊工具,他们的视线模式看起来与在屏幕上阅读面试官问题的候选人无异。而一个遵守政策的候选人在空终端前坐着,试图在重压之下凭记忆重构一个双指针滑动窗口。你是在同一个标签下进行两场不同的面试,而产生通过分数的面试恰恰是你不想评估的那场。

这就是崩塌背后的隐性公平问题。“禁止使用 AI”并不是一条中立的规则。这条规则会有选择性地让那些忽视它的候选人获益,而处于劣势的群体正是公司最想雇佣的候选人。每一个仍在运行“严禁 AI”代码筛选的招聘漏斗,都在系统性地降低其诚实申请者的排名。意识到这一点的领导者已经不再假装该政策可以执行,而是转向了面试方式的变革。

现在真正值得衡量的是什么

棘手的问题不在于“如何防止使用 AI”,而在于“既然候选人在工作中无论如何都会在流程中使用模型,那么我们在这一小时里试图提取什么样的信号?” 这样表述的话,答案会重构整个面试流程。

那些行动最快的公司已经收敛到了一套精简的面试形式:

  • 在真实代码库中进行结对调试,允许使用 AI。 候选人进入一个非琐碎(non-trivial)的代码库,里面有一个失败的测试或一个可复现的 bug。工具随你使用——无论是编辑器还是任何助手,只要是你在平时工作中会用的。面试官观察他们如何形成假设,如何使用模型(或不使用),何时确定答案,以及当模型的第一个建议错误时他们如何修复。这比任何算法面试都更接近真实工作。
  • 针对候选人交付过的系统进行架构讨论。 不是“设计 Twitter”。而是:“带我了解一下你构建的最后一个非琐碎系统。你做了哪些选择?如果重来一次,你会做出什么不同的改动?” 模型无法替代亲身经历的背景。面试官可以深入探讨权衡、限制和事后遗憾,从而揭示候选人是真正主导了决策,还是仅仅继承了决策。
  • 针对候选人自己的历史记录进行“PR 讲解”。 从候选人的公开作品中挑选一个拉取请求(Pull Request),或者他们提交的一份具有代表性的差异(diff)。让他们解释为什么那样做,考虑过并拒绝了哪些方案,以及现在会改变什么。这里的信号与代码生成脱钩,专注于判断力、记忆力以及他们对自己工作的内部认知模型质量。
  • 具备 AI 意识的产品挑战。 Canva 将其计算机科学基础筛选替换为“AI 辅助编程”环节,围绕现实且模糊的产品任务展开,例如“构建一个管理飞机起降的控制系统”。候选人的评价标准包括他们如何分解问题,哪些子任务委派给模型,是否能发现生成代码中的 bug,以及他们产出的内容是否能在生产评审中存活。那些失败的人并不是因为打字慢,而是因为他们不加阅读就直接接受了模型的第一个输出。

这些形式都有一个共同的结构。它们不再衡量编写代码的行为(模型现在可以瞬间完成),而是开始衡量围绕代码的判断力:何时信任,何时验证,交付什么,以及何时上报。表现出色的候选人不是打字最快的人,而是那些已经内化了“发现一个自信的错误答案是什么感觉”的人。

现在无法回避的领导力问题

重写面试流程是容易的部分。更难的部分是大声回答:现在的面试到底应该衡量什么。每一位推出新形式的招聘负责人都会悄然发现自己面临一个分类学问题。当人们说“工程能力”时,至少包含三个截然不同的含义,它们需要不同的面试方式:

  1. 在约束条件下的原始问题解决能力——这是旧流程试图捕捉的经典信号。这依然真实、有价值且可衡量,但它已无法再通过公开网络上的编程题来衡量。它存在于模型无法进行模式匹配的、新颖且陌生的领域中,且设置和评分需要更长时间。
  2. 在真实代码库中交付正确系统的能力——这包括阅读现有代码、选择正确的抽象边界、留意模型何时即将做出“结构正确但逻辑错误”的更改,以及验证端到端行为。这更接近大多数团队的实际需求,而且更难伪装,因为它展现在一系列决策中,面具迟早会滑落。
  3. 作为角色一部分的 AI 工具协作熟练度——这是一种两年前几乎不存在的新兴技能:精确的提示词工程、审慎的验证、知道何时放弃某次生成并尝试不同方法、知道哪些子任务该委派,哪些该留在脑子里。一个候选人可能是优秀的古典工程师,却是糟糕的 AI 协作执行者,反之亦然。将这些视为单一维度会导致错误的招聘决策。

如果领导团队没有明确指出正在为哪项能力招聘,那么他们运行的流程就是这三者的平均值,对每个候选人进行混合打分,并纳闷为什么录用决定如此不一致。明确目标是令人不适的前提。每个公司在被迫命名目标时都会发现,自上次编写评估标准以来,答案已经发生了偏移。

如果你的面试流程仍然是旧的那套,该怎么办

假装这是别人的问题的窗口期正在关闭。对于自 2023 年以来未触动过面试流程的团队,这里有一些具体的动作:

  • 停止将居家测试(take-homes)作为第一轮筛选。它们本来就不受欢迎;现在它们成了针对那些诚实到不愿将其外包的候选人的过滤器。
  • 将在线编程环节替换为在真实内部仓库或忠实的开源模拟仓库中进行的结对调试环节。明确允许使用工具。观察过程,而不是产出。
  • 审计面试流程中的核心环节,看“模型是否能在十秒钟内通过”。如果是,那么这个环节衡量的东西与它声称的不同。弃用它,或者围绕判断力进行重塑。
  • 重写评估标准。词表里“算法”出现的频率可能太高,而“验证”一词可能从未出现。修正这个比例。
  • 在邀约信中明确告诉候选人 AI 政策及其原因。透明度是公平性的乘数;模棱两可则让不诚实的人占便宜。

在 2026 年采取这些行动的团队,最终将拥有一个能产出更优秀工程师的招聘管道,并为面试双方提供更人性化的体验。而那些拖延的团队将继续陷入一场无法取胜的探测军备竞赛,过滤掉他们最诚实的申请人,并纳闷为什么通过门槛的新员工一旦关闭屏幕共享、开始实际工作后就表现不佳。

References:Let's stay in touch and Follow me for more thoughts and updates