跳到主要内容

当候选人使用智能体时,编程面试衡量的是什么

· 阅读需 10 分钟
Tian Pan
Software Engineer

编程面试的设计初衷是为了隔离单一变量。把一个人关在房间里,给他们一个问题,拿走他们的参考资料,观察他们是否能独立将问题转化为可运行的代码。这种形式的一切——白板、空白编辑器、禁止查阅资料——都是为了剥离协作者和工具,从而衡量一种被隔离的技能:这个人能否在压力下独自编写出正确的代码。

这项技能已不再是工作中需要锻炼的技能了。2026 年的日常工程工作是工程师与智能体(Agent)之间的协作。工程师决定构建什么,智能体起草大部分代码,而工程师真正的任务是审查、纠正,并判断智能体何时在“自信地犯错”。面试衡量的是独立产出代码的能力。而工作奖励的是指导一个不知疲倦、快速、偶尔产生幻觉的协作者。代理指标与目标已经脱节,而大多数招聘流程尚未察觉到这一点。

这并不是在抱怨作弊,尽管作弊是每个人都关注的症状。这是一个测量问题。当你无法再观察到测试旨在隔离的变量时,测试就不再产生信号——而一个在所有人仍然信任它的同时却不产生信号的测试,比根本没有测试更糟糕。

禁止智能体,是在测试一项没人做的工作

当隐形的 AI 助手开始通过面试时,人们的第一反应是更严密地封锁房间。切换标签检测、浏览器锁定、眼球追踪、分析按键节奏以标记粘贴代码的频率。一整个反向产业现在将“面试诚信”作为一种服务来销售,通过评分二十多种行为信号来抓取使用隐藏浮窗的候选人。

这场军备竞赛是赢不了的,而这还不是放弃它最主要的原因。作弊工具宣称在应对标准算法问题时的通过率超过 90%,它们能在不到两秒钟内生成解决方案,同时对屏幕共享保持隐形。检测手段在收紧,工具也在进化,整个过程的成本持续攀升。但假设你明天赢得了军备竞赛——假设你可以完美保证候选人在没有任何协助的情况下解决了一个图遍历问题。你确实以极高的精度衡量了一项脱离实际的工作。现在已经没有人凭记忆手写图遍历了。你认证了一项候选人永远不会再使用的技能,而且是在一个与任何工作场所都不相似的环境中。

2026 年一个被严密封锁的面试,就像一台小心翼翼禁用了自动驾驶功能的飞行模拟器——因为上一代飞行员飞行时没有自动驾驶。它测试的是在一项已经退役的任务上的胜任能力。禁止智能体并不能恢复信号。它只会让面试更可靠地衡量错误的东西。

不加约束地允许智能体同样无法提供信息

相反的做法——“随你使用什么工具,我们不在乎”——感觉很现代,但由于一个更微妙的原因而失败。当候选人和智能体共同产生一个正确的解决方案时,你无法看出是谁做出的判断。候选人可能拆解了问题,发现了一个有缺陷的初稿,并引导智能体走向更好的设计。或者,候选人可能只是粘贴了提示词,接受了第一个输出,并因为这个问题是模型记忆过的常见问题而走运通过。两者都会产生相同的绿色勾选。

面试的全部价值在于它迫使候选人的推理过程公开化。一个非结构化的“带上你的智能体”面试将这种推理隐藏在智能体的输出之后。你看着屏幕填满正确的代码,却无法得知坐在椅子上的人在代码出错时是否能发现它。信号并没有改善;它转移到了你观察不到的地方。

因此,这两种显而易见的反应——禁止工具,或自由允许——都会破坏信号,只是方向相反。一个衡量的是过时的技能。另一个衡量的是协作,但无法进行归因。出路不在于工具政策,而在于重新设计面试要求候选人做的事情。

现在真正能预测绩效的信号

如果独立产出代码不再能预测工作表现,那么什么能预测?那些重建了面试流程的公司——如 Sierra、DoorDash、Canva 以及其他正在试点“审计型”或“AI 原生”格式的公司——都收敛到了一份简短的信号清单上,这些信号是智能体无法代表候选人伪造的。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates