当候选人使用智能体时,编程面试衡量的是什么
编程面试的设计初衷是为了隔离单一变量。把一个人关在房间里,给他们一个问题,拿走他们的参考资料,观察他们是否能独立将问题转化为可运行的代码。这种形式的一切——白板、空白编辑器、禁止查阅资料——都是为了剥离协作者和工具,从而衡量一种被隔离的技能:这个人能否在压力下独自编写出正确的代码。
这项技能已不再是工作中需要锻炼的技能了。2026 年的日常工程工作是工程师与智能体(Agent)之间的协作。工程师决定构建什么,智能体起草大部分代码,而工程师真正的任务是审查、纠正,并判断智能体何时在“自信地犯错”。面试衡量的是独立产出代码的能力。而工作奖励的是指导一个不知疲倦、快速、偶尔产生幻觉的协作者。代理指标与目标已经脱节,而大多数招聘流程尚未察觉到这一点。
这并不是在抱怨作弊,尽管作弊是每个人都关注的症状。这是一个测量问题。当你无法再观察到测试旨在隔离的变量时,测试就不再产生信号——而一个在所有人仍然信任它的同时却不产生信号的测试,比根本没有测试更 糟糕。
禁止智能体,是在测试一项没人做的工作
当隐形的 AI 助手开始通过面试时,人们的第一反应是更严密地封锁房间。切换标签检测、浏览器锁定、眼球追踪、分析按键节奏以标记粘贴代码的频率。一整个反向产业现在将“面试诚信”作为一种服务来销售,通过评分二十多种行为信号来抓取使用隐藏浮窗的候选人。
这场军备竞赛是赢不了的,而这还不是放弃它最主要的原因。作弊工具宣称在应对标准算法问题时的通过率超过 90%,它们能在不到两秒钟内生成解决方案,同时对屏幕共享保持隐形。检测手段在收紧,工具也在进化,整个过程的成本持续攀升。但假设你明天赢得了军备竞赛——假设你可以完美保证候选人在没有任何协助的情况下解决了一个图遍历问题。你确实以极高的精度衡量了一项脱离实际的工作。现在已经没有人凭记忆手写图遍历了。你认证了一项候选人永远不会再使用的技能,而且是在一个与任何工作场所都不相似的环境中。
2026 年一个被严密封锁的面试,就像一台小心翼翼禁用了自动驾驶功能的飞行模拟器——因为上一代飞行员飞行时没有自动驾驶。它测试的是在一项已经退役的任务上的胜任能力。禁止智能体并不能恢复信号。它只会让面试更可靠地衡量错误的东西。
