那些被 AI Agent 悄然终结的编程面试
两个小时的课后作业和 45 分钟的算法面试从来都不是重点。它们只是代标(proxies)。课后作业代表的是“这个人能否交付功能”,而白板面试代表的是“这个人能否在压力下分解问题”。二十年来,这些代标运作得相当不错,以至于大多数团队都停止了对它们的质疑。它们的管理成本低、易于评分,并且与你真正关心的能力大致正相关。
编程 Agent 破坏了这种相关性,但没有破坏形式。面试照常进行。它仍然会产生一个分数。这个分数看起来仍然像是有意义的信号。但面试所衡量的东西与工作所需的能力之间的差距已经拉大到如此地步,以至于一个合格(green)的结果几乎证明不了任何东西——而大多数招聘流程还没有意识到这一点,因为表面上没有任何失败的迹象。
这是一种悄无声息的失效。不是过程崩盘了,而是一个过程在它的假设前提不再成立后仍在继续运行。
代标的坍塌
一个好的代标之所以奏 效,是因为造假的成本与拥有底层技能的成本是同步的。在白板上反转链表曾是一个可用的信号,部分原因是流畅完成它的唯一方法是进行过足够的数据结构练习,以至于你可能也已经内化了真正的技能。代标和目标是同步波动的。
Agent 切断了这种联系。一个完全缺乏独立判断力、每月支付 20 美元订阅费的应聘者,现在可以提交一份整洁、经过测试、符合规范且带有注释的课后作业。公开销售的面试辅导工具可以在不到五分钟的时间内解决标准的课后挑战,甚至还能为你没写的代码提供人性化的解释。这个代标仍然在衡量“某些东西”——但那个东西现在变成了“是否拥有模型的访问权限”,而这正是每个在职工程师都已经拥有的。
调查数据让这种坍塌变得具体。一项针对超过 1.9 万场技术面试的分析发现,AI 辅助作弊在 2025 年下半年大约翻了一番,从约 15% 的应聘者上升到约 35%,趋势表明到 2026 年底这将成为主流行为。当三分之一或更多的应聘者可以通过工具而不是技能获得一个看起来不错的得分时,这个分数就不再是一个分类器,而是带有良好生产价值的噪声。
然而,深层的问题不在于作弊。作弊是显而易见的。悄无声息的版本是,即使是一个诚实的应聘者,在做着他们在工作中完全会做的事情时,现在也会使面试失效。要求一名优秀的工程师完成你的课后作业,他们会——正确且专业地——求助于 Agent,因为现在的工作就是这样完成的。他们不是在作弊,而是在演示实际的工作。而面试是为了隔离无辅助能力而设计的,根本不知道该如何给这种情况评分。
