5 篇博文含有标签「engineering-management」

AI 工程师的三种品味：为什么 Prompt、Eval 和 Guardrail 往往无法共存于一个大脑中

2026年4月27日 · 阅读需 13 分钟

Software Engineer

我今年雇佣的三位最优秀的 AI 工程师，如果让他们互相面试，可能都会被刷掉。那个能写出在模型升级后依然稳健的提示词（prompt）的人，这辈子没写过一个有用的评估（eval）用例。那个能设计出捕捉到关键故障的评估集的人，写的提示词其他工程师根本不想去维护或扩展。那个能设计出既能“故障闭合”（fail closed）又不阻塞正常路径的护栏（guardrail）的人，对另外两个人的看法我在这里不便多说。

职级体系将他们三人都称为“AI 工程师”。定级委员会在对比他们的晋升材料时，仿佛他们做的是同样的工作。其实不然。

AI 面试崩塌：工程招聘已失去筛选信号

2026年4月23日 · 阅读需 12 分钟

Tian Pan

Software Engineer

信号消失了。在最近对 19,368 场技术面试的审计中，38.5% 的候选人被标记为存在 AI 辅助作弊行为，其中技术岗位的作弊比例高达 48%，初级候选人的作弊率几乎是资深候选人的两倍。更令人堪忧的是：61% 被检测到的作弊者分数超过了及格线。如果没有检测层，他们本可以晋级。面试作为一种评估工具，已经不再能衡量它最初设计要衡量的东西了。

这并不是针对当今年轻人的道德恐慌，而是评估工具的机械性失效。技术面试曾被校准为一个特定的世界：候选人在时间压力下，在陌生的环境中，必须凭记忆和第一性原理编写出正确的代码。这种约束——即让信号清晰可辨的关键——已被在第二台设备上运行的免费聊天窗口瓦解了。每一家仍在进行 LeetCode 式筛选的公司，现在都在花钱对一场考生可以轻易外包的考试进行排名。

AI 工程师职级体系：为什么你的 SWE 晋升框架在骗你

2026年4月17日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一家中型创业公司的高级工程师最近得到了一份平庸的绩效评估。他们的效率不稳定——有些周发了大量代码，其他几周几乎什么都没有。他们的经理受过传统 SWE 框架培训，因产出波动给他们打了低分。六周后，那位工程师跳槽去了竞争团队。经理没有理解的是：工程师"缓慢"的几周是在构建评估基础设施，防止三类无声故障的发生。没有这些基础设施，产品本会以没人能在数月内察觉的方式悄然出问题。

这种情况正在各个工程团队中上演。那些为确定性软件系统设计职级体系的团队，正将同样的框架套用于 AI 工程师——并系统性地误判了他们最优秀的人才。

指标翻译问题：为何技术上成功的 AI 项目反而失去资金

2026年4月15日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的模型在留存测试集上达到了 91% 的准确率。p95 延迟低于 200ms。与之前的规则系统相比，错误率降低了 40%。从每一个技术指标来看，这个项目都是成功的。六个月后，领导层取消了它。

这不是假设。80% 的 AI 项目未能实现预期的商业价值，而这些失败的大多数并不是由于模型性能不足。它们源于工程师所衡量的内容与决策者所能理解的内容之间的鸿沟。技术团队使用的语言，高管无从评估——在缺乏可理解信号的情况下，领导层默认持怀疑态度。

指标翻译问题并非沟通软技能，而是一门工程纪律，而大多数团队把它当作可选项，直到融资审查前夕才想起来。

AI 技能倒置：当初级工程师在错误的指标上超越资深工程师时

2026年4月13日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你团队中的一名初级工程师刚刚在一周内交付了三个功能。而你的资深工程师只完成了半个。仪表板显示初级工程师的效率是资深工程师的 6 倍。仪表板在撒谎。

这就是 AI 技能反转 —— 一种度量错觉。AI 编程助手让初级工程师在表面指标上看起来生产力惊人，却掩盖了更深层次的问题。功能交付得更快了，但架构却在退化。PR 成倍增加，但系统的连贯性却在瓦解。那些比起判断力更相信仪表板的组织，正在助长错误的行为，并流失掉正确的人才。

关于 Tian Pan