AI 工程师晋升自评报告:让随机性工作在绩效评审中清晰可见
· 阅读需 13 分钟
一位资深工程师走进晋升评定会议。他们上线了一个经过微调的重排序器(reranker),将检索质量提升了 8 个点。他们构建了评估框架(eval harness),将原本两周的 QA 周期缩短为一小时的 CI 门禁。他们编写了提示词(prompt)改动,带来了 2 个百分点的转化率提升。无论以何种合理标准衡量,他们都度过了决定性的一年。
他们没有获得晋升。这份绩效申请(packet)写出来读着就像是“我调了一些数字”。坐在旁边的同事上线了一个带有发布横幅、具备 QPS 和延迟指标以及周五演示的 CRUD 功能,结果反而获得了认可。委员会并非心怀恶意。它只是在用它所掌握的语汇,去评价一份没有将工作转化为该语汇的申请材料。
这种失败模式现在已经普遍到成为一种范式。AI 工程工作无法清晰地分解为评审委员会习惯评估的那些产出物。绩效模板是为以确定性方式交付的确定性系统编写的,而在 AI 技术栈中承担最具杠杆作用工作的工程师们正在为此付出代价。
