跳到主要内容

5 篇博文 含有标签「engineering-management」

查看所有标签

AI 工程师的三种品味:为什么 Prompt、Eval 和 Guardrail 往往无法共存于一个大脑中

· 阅读需 13 分钟
Tian Pan
Software Engineer

我今年雇佣的三位最优秀的 AI 工程师,如果让他们互相面试,可能都会被刷掉。那个能写出在模型升级后依然稳健的提示词(prompt)的人,这辈子没写过一个有用的评估(eval)用例。那个能设计出捕捉到关键故障的评估集的人,写的提示词其他工程师根本不想去维护或扩展。那个能设计出既能“故障闭合”(fail closed)又不阻塞正常路径的护栏(guardrail)的人,对另外两个人的看法我在这里不便多说。

职级体系将他们三人都称为“AI 工程师”。定级委员会在对比他们的晋升材料时,仿佛他们做的是同样的工作。其实不然。

AI 面试崩塌:工程招聘已失去筛选信号

· 阅读需 12 分钟
Tian Pan
Software Engineer

信号消失了。在最近对 19,368 场技术面试的审计中,38.5% 的候选人被标记为存在 AI 辅助作弊行为,其中技术岗位的作弊比例高达 48%,初级候选人的作弊率几乎是资深候选人的两倍。更令人堪忧的是:61% 被检测到的作弊者分数超过了及格线。如果没有检测层,他们本可以晋级。面试作为一种评估工具,已经不再能衡量它最初设计要衡量的东西了。

这并不是针对当今年轻人的道德恐慌,而是评估工具的机械性失效。技术面试曾被校准为一个特定的世界:候选人在时间压力下,在陌生的环境中,必须凭记忆和第一性原理编写出正确的代码。这种约束——即让信号清晰可辨的关键——已被在第二台设备上运行的免费聊天窗口瓦解了。每一家仍在进行 LeetCode 式筛选的公司,现在都在花钱对一场考生可以轻易外包的考试进行排名。

AI 工程师职级体系:为什么你的 SWE 晋升框架在骗你

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家中型创业公司的高级工程师最近得到了一份平庸的绩效评估。他们的效率不稳定——有些周发了大量代码,其他几周几乎什么都没有。他们的经理受过传统 SWE 框架培训,因产出波动给他们打了低分。六周后,那位工程师跳槽去了竞争团队。经理没有理解的是:工程师"缓慢"的几周是在构建评估基础设施,防止三类无声故障的发生。没有这些基础设施,产品本会以没人能在数月内察觉的方式悄然出问题。

这种情况正在各个工程团队中上演。那些为确定性软件系统设计职级体系的团队,正将同样的框架套用于 AI 工程师——并系统性地误判了他们最优秀的人才。

指标翻译问题:为何技术上成功的 AI 项目反而失去资金

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的模型在留存测试集上达到了 91% 的准确率。p95 延迟低于 200ms。与之前的规则系统相比,错误率降低了 40%。从每一个技术指标来看,这个项目都是成功的。六个月后,领导层取消了它。

这不是假设。80% 的 AI 项目未能实现预期的商业价值,而这些失败的大多数并不是由于模型性能不足。它们源于工程师所衡量的内容与决策者所能理解的内容之间的鸿沟。技术团队使用的语言,高管无从评估——在缺乏可理解信号的情况下,领导层默认持怀疑态度。

指标翻译问题并非沟通软技能,而是一门工程纪律,而大多数团队把它当作可选项,直到融资审查前夕才想起来。

AI 技能倒置:当初级工程师在错误的指标上超越资深工程师时

· 阅读需 10 分钟
Tian Pan
Software Engineer

你团队中的一名初级工程师刚刚在一周内交付了三个功能。而你的资深工程师只完成了半个。仪表板显示初级工程师的效率是资深工程师的 6 倍。仪表板在撒谎。

这就是 AI 技能反转 —— 一种度量错觉。AI 编程助手让初级工程师在表面指标上看起来生产力惊人,却掩盖了更深层次的问题。功能交付得更快了,但架构却在退化。PR 成倍增加,但系统的连贯性却在瓦解。那些比起判断力更相信仪表板的组织,正在助长错误的行为,并流失掉正确的人才。