AI 面试崩塌:工程招聘已失去筛选信号
信号消失了。在最近对 19,368 场技术面试的审计中,38.5% 的候选人被标记为存在 AI 辅助作弊行为,其中技术岗位的作弊比例高达 48%,初级候选人的作弊率几乎是资深候选人的两倍。更令人堪忧的是:61% 被检测到的作弊者分数超过了及格线。如果没有检测层,他们本可以晋级。面试作为一种评估工具,已经不再能衡量它最初设计要衡量的东西了。
这并不是针对当今年轻人的道德恐慌,而是评估工具的机械性失效。技术面试曾被校准为一个特定的世界:候选人在时间压力下,在陌生的环境中,必须凭记忆和第一性原理编写出正确的代码。这种约束——即让信号清晰可辨的关键——已被在第二台设备上运行的免费聊天窗口瓦解了。每一家仍在进行 LeetCode 式筛选的公司,现在都在花钱对一场考生可以轻易外包的考试进行排名。
认真对待这一现状的团队已经向两个方向做出了反应。要么他们接受候选人有模型参与(model in the loop)的事实,并围绕这一事实重新设计面试;要么他们在检测和监考上加倍投入,却发现这场军备竞赛在开始之前就已经输了。这两条路径都极 具启发性。第一条路更难、更慢,但能产生更好的招聘效果。第二条路则产生了一场面试作秀(interview theater),它对诚实的候选人充满敌意,而对不诚实的候选人来说则是透明的。
旧的信号纯属偶然,且已不复存在
LeetCode 之所以能奏效十年,并不是因为它衡量了工程能力。它衡量的是在特定约束条件下与工程能力相关的东西:在没有外部帮助的情况下,实时为候选人从未见过的问题提供可行的解决方案。这种相关性一直比面试官标榜的要弱,但它的管理成本低且难以作弊,而“难以作弊”承担了大部分职能。
一旦剥离了反作弊约束,这种相关性就会崩塌。今天,将一个 LeetCode 中等难度题目输入任何前沿模型,在你还没粘贴完提示词之前,你就能得到一个可行的解决方案。Cluely 和 Interview Coder 在第二块屏幕上运行隐形图层,通过转录面试官的音频来提供答案。语音模式的 ChatGPT 会在候选人“大声思考”是否使用哈希表时,在他们耳边低声提示方案。候选人不需要多么高明,工具已经抽象掉了复杂性。
关键证据在于,检测率和工具采用率都在攀升,而不是趋于收敛。在 2025 年下半年,专用作弊工具的使用率翻了一番,从 15% 增加到 35% 的候选人。防御者正拼命追赶,却依然落后。如果你面试的有效性取决于检测供应商对抗不断变化的目标的胜率,那么你的面试本质上是与作弊工具提供商签署的一份服务等级协议,而不是招聘流程。
“检测优先”是一场必输的战争
现在有一整类初创公司在销售 AI 作弊检测——视线追踪、击键节奏、响应延迟分析、屏幕共享取证。这些方案听起来很合理,报告的指标也很真实,但没有一个能解决底层问题。
第一个失败模式是误报。真正思考的优秀候选人给出的答案往往不如照本宣科的人完美。他们会停顿,会回溯,会在解题中途重新表述问题。一个针对“可疑犹豫模式”训练的检测器会以更高的比率标记出正是你想要的这些候选人。最终你过滤掉了你想要的人,却放行了那些能够流利粘贴模型输出而又不触发模式匹配器的人。
第二个失败模式是文化。一旦面试官被告知要“留意作弊信号”,面试就不再是一个协作解决问题的对话,而变成了一个对抗式的观察练习。候选人能感觉到这一点。面试官在提问追问时表现得更差,因为现在的每一个追问听起来都像是在指控。诚实的候选人的面试体验比不诚实的更差,因为不诚实的人读的是预设好常见追问的脚本。
第三个失败模式彻底杀死了这一策略:检测门槛每个季度都在变动。Anthropic 公开记录了这种循环。他们的离线测试(take-home test)在 2024 年初还有效。Claude Opus 4 达到了大多数人类申请者的水平。Claude Opus 4.5 达到了顶尖申请者的水平。团队重新设计测试并上线,而下一个模型版本的发布又使重新设计失效。构建模型的公司都无法构建出一个模型无法通过的评估,我们其他人又凭什么假装自己的评估能撑得住?
“禁止使用 AI”的政策既无法执行,且存在隐性不公
招聘负责人最常见的反应是在面试邀请顶部加一行政策说明:“本次评估期间严禁使用 AI 工具。”有些人做得更绝,要求候选人共享全屏,禁用其他设备,并全程开启摄像头对准面部坐上一小时。
这些政策的问题不在于它们无法阻止作弊。问题在于它们主要阻止了诚实的作弊行为。一个愿意违反政策的候选人会在第二台笔记本电脑或镜头外的手机上运行作弊工具,他们的视线模式看起来与在屏幕上阅读面试官问题的候选人无异。而一个遵守政策的候选人在空终端前坐着,试图在重压之下凭记忆重构一个双指针滑动窗口。你是在同一个标签下进行两场不同的面试,而产生通过分数的面试恰恰是你不想评估的那场。
这就是崩塌背后的隐性公平问题。“禁止使用 AI”并不是一条中立的规则。这条规则会有选择性地让那些忽视它的候选人获益,而处于劣势的群体正是公司最想雇佣的候选人。每一个仍在运行“严禁 AI”代码筛选的招聘漏斗,都在系统性地降低其诚实申请者的排名。意识到这一点的领导者已经不再假装该政策可以执行,而是转向了面试方式的变革。
