跳到主要内容

团队内部的 AI 素养鸿沟,才是你路线图上最大的交付风险

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的招聘页上写着「需要 AI 经验」。发布会的通稿里点名提到了那些 AI 功能。本季度路线图上又新承诺了两个。而真正要把这些东西交付、维护下去的团队里,只有一个工程师真懂怎么调试一次 eval 失败,两个人能自信地编辑 prompt,剩下十二个把 LLM 调用当成一个黑盒——一旦它出问题,就甩出去给别人接。

这种分布就是领导团队从没点名说出来的交付风险:团队对外宣称的 AI 能力——也就是出现在汇报幻灯片上那一个数字——是任何单个成员技能的最大值;而团队真实的交付速度,是中位数。幻灯片上写的是一个数,生产环境跑的是另一个数。

从外面看,一切都挺好。功能在上线,事故在收尾,演示效果也不错。被遮住的是这件事:几乎每一个有分量的产出——那条真正在工作的 prompt、那只被精心校准过的 judge、那一套真能抓住回归的 eval 集、那篇真正点出根因的事故复盘——都是从同样的那一两双手里过出来的。这个团队有专家团队的产出,但还没有专家团队的能力。

消费者级流畅度 vs. 生产者级流畅度

工程团队内部的素养鸿沟通常被拍成一个二元问题:「大家上手 AI 了吗?」这是错的轴。到 2026 年,大多数工程师已经每天都在用 AI 助手,调研数据也印证了这点:领导问团队「AI 流畅吗」,几乎所有人都点头。但那是消费者级的流畅度——你能让 coding 助手帮你搭一个函数的骨架吗?能 accept 它给的 completion 吗?能让它解释一段 stack trace 吗?

生产者级的流畅度是另一回事。它是指:看到 eval 得分突然从 0.84 掉到 0.79,能立刻形成一个关于「为什么」的假设;能去读一段半年前别人写的 prompt,分辨出哪些指令是承重墙、哪些只是历史沉积;能设计一只不会偷偷偏向「你的模型恰好擅长的回答风格」的 judge prompt;能在不冻结产品的前提下规划一次模型迁移;能直接砍掉一个任务形状根本不匹配模型的功能,而不是再花六周去调那条 prompt。

「一名优秀的通用工程师」这件事,几乎没有任何东西能自动转化成生产者级流畅度。直觉不同,调试循环不同,产出物也不同。一个把两者混为一谈的团队会撞上这道鸿沟最糟糕的版本:领导以为团队是流畅的,因为大家都在用工具;但团队的真实生产能力,集中在那少数几个靠自己业余时间练出生产者级直觉的人手上。

一名专家就是一个等着出事的「巴士因子」失败

挑出团队里最强的那位 AI 工程师。现在想象一下他离岗两周。不是离职——只是不在。休假、育儿假、深度专注于其他事。把这两周里会在他工位上堆积起来的工作列一遍。

那条没人敢在没有他过目情况下就发版的 prompt 修改;那次在发版前必须分诊的 eval 失败;上个 sprint 漂移了、还等着他抽空的 judge 校准;团队想评估、但没人知道该怎么严谨设计对比实验的供应商新模型;上个月那场没人能解读的事故复盘——因为根因牵涉到 system prompt 和工具 schema 之间一个微妙的交互。

在一支健康的工程团队里,一位资深成员离岗两周是可以被吸收掉的:其他人接管 code review,on-call 轮换,决策照常推进。但在一支只有一名生产者级专家的 AI 功能团队里,这个人离岗两周就是一场小型组织危机;而大多数领导意识不到这件事,直到它真的发生。这位专家不只是在贡献吞吐——他是 AI 这片产品面上每一个关乎质量的决策的单点故障。

能把这件事直接显形的诊断问题简单到近乎残酷:在上一个季度里,有多大比例的 AI 功能事故是没有 page 这位专家就被解决掉的?不是「跟他讨论过」,不是「让他知情」——是解决。如果诚实的答案是「几乎一个都没有」,那你拥有的不是一支 AI 团队。你拥有的是「一位专家加上一些帮手」。

为什么这位专家会告诉你「团队挺好」

整个空间里最稳定的失败模式,就是这位专家向上汇报「团队状况良好」——而他并没有撒谎。从他那个位置看出去,一切的确正常。每一个落到他桌上的请求都被处理掉了,每一次他经手的事故都收口了,每一条他过 review 的 prompt 都顺利发版了。他亲身参与的工作,吞吐很高,质量也很好。

这位专家在那个循环里看不见的,是「因为别人觉得自己没资格开始所以根本没发生」的那部分工作。那套永远没人扩充的 eval 集——因为只有他会写 eval;那条没人敢重构的 prompt——因为没人能推理出哪条指令是重要的;那次被团队不断推迟的模型评估——要等他空出整周;那种上线后悄悄漂移的质量问题——根本没人在看,因为没人知道「漂移」看上去是什么样。

这与经典的事故响应病态如出一辙:on-call 主导汇报「一切正常」,因为他接到的每一次 page 都被收口了;而只有在事后复盘里,才会浮现出长尾的——那些根本没被升级成 page 的——问题,因为其他人压根没认出这是该被 page 的东西。这位专家在汇报一份被截断过的样本。真正对领导有意义的信号,不是抵达专家的工作,而是没抵达专家的工作。

「AI 素养作为团队能力」具体长什么样

把生产者级流畅度当作成熟工程组织对待 code review 文化的方式来对待。没人会假装 code review 是「招一个会的人就一劳永逸」的技能。它必须被显式地培养,通过那些能在时间里慢慢沉淀出共享判断力的实践。AI 素养需要同样的姿态。

下面这些实践,能真正把中位数挪起来,而不只是抬高最大值:

  • 在真实生产事故上的结对调试轮岗。 AI 功能事故响起时,专家不是一个人去修。他每次和一个不同的队友一起修,而队友的任务不是旁观——是敲键盘,由专家把推理过程念出来。这场实践的产出物是一次「生产者级工程师如何读症状、如何形成假设、如何决定要拧哪个旋钮」的现场导览。六轮过后,中位数那位工程师脑子里就有了六条调试轨迹,而不是零条。

  • 把 eval 写作变成团队运动,配上交叉作者评审。 让 eval 成为团队中任何人都可以贡献的产物,并把 eval 集的评审当作 code review 那样去对待——实质性的、可阻塞合并的、由同行执行的评审。「写出一条好 eval 用例」的技能(我在瞄准哪个 failure mode?通过/失败的判别器是什么?一次绿测真正能证明什么?)不会从被动地读别人的 eval 里转移过来。它只会通过:自己写一条、在 review 里被批得很惨、然后下一条写得更好——这条路径转移过来。

  • 常设的模型迁移演练。 每个月,让团队走一遍「在一小片生产 prompt 样本上评估一次模型替换」的完整动作,哪怕根本没有迁移计划。这场演练强迫每个人走完整套栈:拉一份有代表性的 prompt 样本、跑候选模型、打分、识别回归、判断哪些行为变化是可容忍的、起草回滚预案。等到一次真正的迁移降临时,那应该是团队第十二次走这套舞步,而不是第一次。

  • Prompt 考古会。 每周挑一条团队的生产 prompt,像优秀工程团队互读彼此代码那样,把它一起读一遍。这条指令为什么在这?这句防御性的话来自哪一次事故?这句话现在还配得上它消耗的 tokens 吗?能不能删掉?能读懂彼此 prompt 的团队,才是能重构 prompt 的团队;读不懂的团队,prompt 就会无限增长,而且只有原作者明白它在干嘛。

  • 把专家当作老师来考核。 如果你最强的那位 AI 工程师只被按「自己亲手发的版」来评价,他就会亲手发更多版,而鸿沟会拉得更大。但如果他被显式地按「团队其余人的生产者级流畅度」来评价——可度量为:没 page 他就被解决掉的事故比例、prompt 和 eval 的作者多样性、事故复盘作者的分布——那么激励就会和「弥合鸿沟」对齐,而不是把鸿沟固化下来。

这些实践里没有一个是奇技淫巧。它们都是一种朴素的纪律:把「能力」当成团队一起搭建出来的东西,而不是团队恰好里面装着的东西。它们之所以稀缺,原因和 code review 用了二十年才成为常态是同一个:短期里看得见吞吐量的代价,长期里看不见韧性带来的回报。

领导真正应该追踪的那一个指标

大多数 AI 工程仪表盘报告的是系统:eval 通过率、延迟、单次请求成本、事故计数。几乎没有哪个在报告团队。这种不对称把这道素养鸿沟掩盖得严丝合缝。系统看起来健康,是因为专家在让它保持健康。

唯一能直接把这道鸿沟显形的数字,是「在没有被指定专家被 page 或作为主要作者的情况下被解决的 AI 功能事故和关乎质量的决策」所占的百分比。它不光鲜。它精确计算起来很难。第一次度量它,结果会低到令你尴尬。这正是要点。它会告诉你:能力是住在团队里,还是住在一个人身上。

追踪这个指标还有一个有用的二阶效应:它让这位专家的「教学工作」和他的「交付工作」出现在同一个可见性层面里。当这个数字开始上扬,那是因为团队其余人在独立地交付关乎质量的 AI 工作——这是「AI 原生团队」唯一一种能在压力下站得住的定义。

AI 流畅度是一种团队能力,不是招聘问题

领导一旦意识到鸿沟存在,本能反应就是再招一位资深。这个本能要么是错的,要么至少是不够的。多加一位专家只会抬高最大值,不会挪动中位数。下个季度你会拥有两个单点故障,而不是一个;同一道诊断题——有多少事故是没 page 他们就被解决的——会给出同样的答案。

生产者级流畅的团队是「搭建」出来的,不是「招聘」出来的。前面那些实践是抵达那里的唯一机制,而且耗时以季度计,不以周计。领导的决策点在于:是现在用看得见的吞吐量去投资能力建设,还是把这笔账先记着,继续让整条 AI 路线图骑在一两个人身上——他们一旦缺席,路线图就停摆。

那些早早想明白这件事的团队,会拿到一个复利级的优势:每一个新的 AI 功能都落在一层共享判断力的衬底上;每一次模型迁移都是熟练动作;每一次事故被更少的手、但更好的手处理。那些没想明白的团队会一直交付看上去没问题的功能——直到专家请了一次长假,他们才发现整条 AI 路线图一直是被一个从未被请求承担这份责任的人撑住的。

鸿沟在团队内部。弥合它,是路线图里 AI 部分上杠杆率最高的投资;而它,几乎从来不出现在路线图本身上。

References:Let's stay in touch and Follow me for more thoughts and updates