跳到主要内容

6 篇博文 含有标签「engineering-management」

查看所有标签

非对称评估经济学:为什么一个测试用例的成本比它测试的功能还要高

· 阅读需 11 分钟
Tian Pan
Software Engineer

这是一个尴尬的事实,大多数 AI 团队在发现时往往已经晚了半年:一个精心设计的评估(eval)用例所耗费的工程精力通常比它要测试的功能本身还要多。修改一次提示词(prompt)只需要一个下午。而让你确信这次修改没有破坏原有功能的评估用例,则需要领域专家进行为期两天的标注,一个与裁判提示词(judge prompt)的校准循环,以及一场关于“正确”在当前用户界面下究竟意味着什么的讨论。功能可以在一个 Sprint 内交付,而让你能够安全交付后续十个功能的评估体系则需要一个季度才能成熟。

这种不对称性并非缺陷。它是评估工作的结构性形态。标注、边缘情况的策划、裁判校准和评分标准设计都是前置的固定成本,它们不随你交付功能的多少而扩展,而是随你想要验证的不同行为(behaviors)数量而扩展。与此同时,功能开发端不断产生看似廉价的边际输出:“又一次提示词迭代”、“为智能体增加了一个工具”、“更换模型”。每一个改动看起来都很微小。但每一个改动都在无声无息地增加评估集必须覆盖的范围。

AI 工程师的三种品味:为什么 Prompt、Eval 和 Guardrail 往往无法共存于一个大脑中

· 阅读需 13 分钟
Tian Pan
Software Engineer

我今年雇佣的三位最优秀的 AI 工程师,如果让他们互相面试,可能都会被刷掉。那个能写出在模型升级后依然稳健的提示词(prompt)的人,这辈子没写过一个有用的评估(eval)用例。那个能设计出捕捉到关键故障的评估集的人,写的提示词其他工程师根本不想去维护或扩展。那个能设计出既能“故障闭合”(fail closed)又不阻塞正常路径的护栏(guardrail)的人,对另外两个人的看法我在这里不便多说。

职级体系将他们三人都称为“AI 工程师”。定级委员会在对比他们的晋升材料时,仿佛他们做的是同样的工作。其实不然。

AI 面试崩塌:工程招聘已失去筛选信号

· 阅读需 12 分钟
Tian Pan
Software Engineer

信号消失了。在最近对 19,368 场技术面试的审计中,38.5% 的候选人被标记为存在 AI 辅助作弊行为,其中技术岗位的作弊比例高达 48%,初级候选人的作弊率几乎是资深候选人的两倍。更令人堪忧的是:61% 被检测到的作弊者分数超过了及格线。如果没有检测层,他们本可以晋级。面试作为一种评估工具,已经不再能衡量它最初设计要衡量的东西了。

这并不是针对当今年轻人的道德恐慌,而是评估工具的机械性失效。技术面试曾被校准为一个特定的世界:候选人在时间压力下,在陌生的环境中,必须凭记忆和第一性原理编写出正确的代码。这种约束——即让信号清晰可辨的关键——已被在第二台设备上运行的免费聊天窗口瓦解了。每一家仍在进行 LeetCode 式筛选的公司,现在都在花钱对一场考生可以轻易外包的考试进行排名。

AI 工程师职级体系:为什么你的 SWE 晋升框架在骗你

· 阅读需 10 分钟
Tian Pan
Software Engineer

一家中型创业公司的高级工程师最近得到了一份平庸的绩效评估。他们的效率不稳定——有些周发了大量代码,其他几周几乎什么都没有。他们的经理受过传统 SWE 框架培训,因产出波动给他们打了低分。六周后,那位工程师跳槽去了竞争团队。经理没有理解的是:工程师"缓慢"的几周是在构建评估基础设施,防止三类无声故障的发生。没有这些基础设施,产品本会以没人能在数月内察觉的方式悄然出问题。

这种情况正在各个工程团队中上演。那些为确定性软件系统设计职级体系的团队,正将同样的框架套用于 AI 工程师——并系统性地误判了他们最优秀的人才。

指标翻译问题:为何技术上成功的 AI 项目反而失去资金

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的模型在留存测试集上达到了 91% 的准确率。p95 延迟低于 200ms。与之前的规则系统相比,错误率降低了 40%。从每一个技术指标来看,这个项目都是成功的。六个月后,领导层取消了它。

这不是假设。80% 的 AI 项目未能实现预期的商业价值,而这些失败的大多数并不是由于模型性能不足。它们源于工程师所衡量的内容与决策者所能理解的内容之间的鸿沟。技术团队使用的语言,高管无从评估——在缺乏可理解信号的情况下,领导层默认持怀疑态度。

指标翻译问题并非沟通软技能,而是一门工程纪律,而大多数团队把它当作可选项,直到融资审查前夕才想起来。

AI 技能倒置:当初级工程师在错误的指标上超越资深工程师时

· 阅读需 10 分钟
Tian Pan
Software Engineer

你团队中的一名初级工程师刚刚在一周内交付了三个功能。而你的资深工程师只完成了半个。仪表板显示初级工程师的效率是资深工程师的 6 倍。仪表板在撒谎。

这就是 AI 技能反转 —— 一种度量错觉。AI 编程助手让初级工程师在表面指标上看起来生产力惊人,却掩盖了更深层次的问题。功能交付得更快了,但架构却在退化。PR 成倍增加,但系统的连贯性却在瓦解。那些比起判断力更相信仪表板的组织,正在助长错误的行为,并流失掉正确的人才。