AI 招聘评分标准的问题:为什么你的面试流程选错了工程师
当今大多数招聘 AI 工程师的团队,都在运行一套为一个根本不存在的岗位所优化的面试流程。他们筛查的是 LeetCode 刷题能力,考察候选人对 Transformer 内部机制的了解程度,并给那些能够自信地在白板上画出分布式系统的人加分。然而,这些候选人加入团队后,却在调试幻觉频发的检索流水线时束手无策,并且交付了一个在测试环境中表现完美、在生产中悄然退化的模型集成。
这不是人才问题,而是测量问题。预示 AI 工程成功的技能在传统面试循环中几乎是不可见的——而面试实际测量到的技能,与工作的真实需求相关性极低。
传统面试实际在测什么
经典的软件工程面试诞生于确定性系统时代。写一个函数,运行两遍,得到相同的输出。这套评估模型是有道理的:衡量算法推理能力、 数据结构知识和系统设计直觉。这些方面都强,大概率也能胜任工作。
但这套模型在 AI 工程领域失效了,而且失效是根本性的,而非表面性的。
一个候选人在时间压力下能够解出图遍历题,展示的是工作记忆能力、对已知模式的回忆能力,以及在压力下的表现。这些技能并不能直接转化为诊断语言模型在语义相同的提示下返回不一致输出的能力——后者需要完全不同的思维模型。
系统设计面试也是同理。设计一个短链接服务或叫车调度系统,训练候选人在确定性服务的吞吐量、一致性和故障模式上进行推理。虽是有用的基础,但对于推理推理延迟预算、提示注入面、上下文窗口管理,或规模化下的检索质量退化而言,这还远远不够。
当 71% 的工程领导者表示 AI 正在让现有方法更难评估技术技能时,他们观察到的不是边际变化。他们注意到的是:自己的测量工具已经不再适配实际工作。
真正预示 AI 工程表现的技能
2026 年的 AI 工程师岗位,与面试所设计要筛选的岗位毫无相似之处。看看这份工作的日常内容:
调试非确定性故障。 当一个由 LLM 驱动的功能出现问题时,故障模式很少是堆栈追踪或可复现的崩溃。它是一种分布偏移——上周还有 94% 可接受率的响应,本周只有 79% 了,而你不知道原因。诊断这个问题需要读取追踪日志、构建有针对性的评测数据集、隔离是哪次提示变更或检索更新引入了退化,以及对概率分布而非边界情况进行推理。这 种技能在面试中几乎从不被考察。
从模糊需求中设计评测。 产品经理不会像传统功能那样为 AI 功能写"验收标准"。他们说的是"让它听起来更自然"或"这里应该更有帮助"。AI 工程师的工作是把这些话翻译成可测试的东西——一个带标注的数据集、一套 LLM 评判员能够一致执行的评分标准、一个能随 PM 所关注的东西一起变动的指标。能做到这一点的工程师极其稀缺且极有价值。做不到这一点的工程师,将永远只是在发布感觉上还不错的东西。
在概率输出之上构建反馈闭环。 确定性软件要么有效,要么无效。AI 系统在置信区间内运作,而这个区间会随着使用模式变化、数据分布漂移和底层模型更新而改变。改进最快的工程师,是那些构建了系统性流水线以从生产中收集信号、将故障路由到正确的标注桶中、以及将真实世界结果与训练数据之间的闭环打通的人。这更接近于科学思维而非工程思维,而大多数面试循环不会将其浮现出来。
生产级提示工程。 在 Jupyter Notebook 中有效的提示,与在生产中稳定有效的提示之间,存在巨大的鸿沟。生产提示需要版本管理、回归测试、分阶段发布和回退逻辑。它们需要处理对抗性输入、用户行为的长尾分布,以及不适合放入 128k 上下文窗口的内容。理解这一点的候选人——把提示当作代码而非指令来对待的人——是可以与其他人区分开来的,但前提是你要问出正确的问题。
