跳到主要内容

2 篇博文 含有标签「promotion」

查看所有标签

AI 工程师晋升自评报告:让随机性工作在绩效评审中清晰可见

· 阅读需 13 分钟
Tian Pan
Software Engineer

一位资深工程师走进晋升评定会议。他们上线了一个经过微调的重排序器(reranker),将检索质量提升了 8 个点。他们构建了评估框架(eval harness),将原本两周的 QA 周期缩短为一小时的 CI 门禁。他们编写了提示词(prompt)改动,带来了 2 个百分点的转化率提升。无论以何种合理标准衡量,他们都度过了决定性的一年。

他们没有获得晋升。这份绩效申请(packet)写出来读着就像是“我调了一些数字”。坐在旁边的同事上线了一个带有发布横幅、具备 QPS 和延迟指标以及周五演示的 CRUD 功能,结果反而获得了认可。委员会并非心怀恶意。它只是在用它所掌握的语汇,去评价一份没有将工作转化为该语汇的申请材料。

这种失败模式现在已经普遍到成为一种范式。AI 工程工作无法清晰地分解为评审委员会习惯评估的那些产出物。绩效模板是为以确定性方式交付的确定性系统编写的,而在 AI 技术栈中承担最具杠杆作用工作的工程师们正在为此付出代价。

没上线新功能的 AI 工程师该如何写晋升材料

· 阅读需 13 分钟
Tian Pan
Software Engineer

你团队中晋升理由最充分的 AI 工程师,其晋升材料(Promotion Packet)看起来却可能是空洞的。两个季度的努力,影响力图表却是一条平线。曾经在每次模型切换时都会飙升至 12% 的评估回退率(Eval-regression rate),现在稳定在 4%。财务部门差点就要介入调查的每月 4 万美元成本飙升从未发生,因为有人在网关中加入了预算守卫(Budget Guard)。本会导致公司状态页(Status Page)挂彩的 P0 级事故从未发生,因为紧急开关(Kill-switch)被触发,将流量导向了之前的 Prompt 版本。

这种材料在“已发布功能 X”一栏无话可说。定级委员会面对两个并排坐着的工程师:一个是这半年发布了两个显性功能的工程师,另一个是默默承担了让这些功能成为可能的负载的工程师。委员会一如既往地给发布功能的工程师打了高分。那位基建型(Infra-shaped)工程师要么拿了一个不应得的“符合预期”评分并在一个季度内辞职,要么学会用委员会真正能听懂的语言来撰写材料。