跳到主要内容

AI委托悖论:你无法评估自己不会做的工作

· 阅读需 10 分钟
Tian Pan
Software Engineer

每个曾将模块委托给外包的工程师都知道那种感觉:代码交回来了,测试通过了,演示也能跑——但你完全不知道它到底好不好。你没有写它,你不完全理解其中蕴含的决策,而你即将进行的审查更像是走过场而非真正的实践。现在把这种动态乘以你代码库中每一个AI辅助的提交。

AI委托悖论很容易表述,却很难逃脱:你最需要用来评估AI生成工作的技能,恰恰是你停止亲自动手后退化最快的技能。这不是未来的风险,而是正在发生的事实,在那些拥抱AI编码工具的工程组织中已经可以量化测量。

自信与能力的倒挂

近期研究中最令人不安的发现不是AI工具有时会产生糟糕的代码,而是开发者系统性地误判了他们所获得产出的质量。

METR在2025年进行的一项随机对照试验发现,经验丰富的开源开发者在使用AI编码工具时实际上慢了19%——而他们自己认为快了20%。这是感知与实际表现之间39个百分点的差距。研究结束后,69%的参与者表示他们仍会继续使用这些工具。

这不是固执,而是一个测量问题。AI工具生成的代码看起来正确。它能编译,遵循命名约定,有合理的结构。失败之处是微妙的:遗漏的边界情况、被忽略的现有模式、在特定部署环境中不成立的安全假设。发现这些问题需要的恰恰是通过编写代码(而非审查代码)才能建立起来的深层系统理解。

自信与能力的倒挂在初级工程师身上打击最大。Qodo的2025年AI代码质量状况报告数据显示,工作经验不足两年的开发者报告的AI工具质量改善最低(51.9%),但在未审查的情况下提交AI代码的信心最高(60.2%)。高级开发者看到更高的质量收益(68.2%),但对未经审查就提交代码的信心远低得多(25.8%)。经验教会你知道自己不知道什么,而缺乏经验则不会。

理解力债务:无人追踪的指标

技术债务有成熟的词汇体系。理解力债务没有,这本身就是问题的一部分。

理解力债务是系统中存在的代码量与任何人类工程师真正理解的代码量之间不断扩大的差距。与技术债务不同,它是隐形积累的。测试通过。Linter清洁。DORA指标看起来健康。但对系统实际如何运作的集体知识正在底层侵蚀。

Anthropic在2026年1月的一项研究跟踪了52名学习异步编程的工程师。AI辅助的参与者完成任务的时间与对照组大致相同,但之后的理解力测试得分低了17%——50%对67%。最大的性能下降恰恰发生在调试任务中。研究人员识别出六种不同的AI交互模式,只有那些需要主动认知参与的模式才能保持学习成果。被动委托——让AI解决问题并接受结果——无论输出多么正确,都会损害技能形成。

这创造了一个反馈循环。委托越多的工程师对代码库的理解越少。理解越少,他们审查AI输出的能力越差。审查效果越差,他们遗漏的Bug越多。遗漏的Bug越多,他们就越信任AI的输出(因为Bug直到生产环境才会暴露)。越信任,就委托越多。

GitClear对2.11亿行代码的分析量化了一个症状:代码重复相比AI之前的基准增长了4倍,而重构从代码变更的25%下降到不足10%。在他们的数据集中,复制粘贴代码首次超过了移动(复用)代码。代码库增长更快,同时变得更不被理解。

软件外包的前车之鉴

这种模式并不新鲜。软件行业在2000年代和2010年代的离岸外包浪潮中已经经历过类似的版本。

套路很熟悉:把工作发给更便宜、更快的团队。收到看起来完整的交付物。几个月后发现架构站不住脚,测试覆盖是表面文章,原团队中没有人足够了解系统来维护它。失败模式从来不是"外包团队写了烂代码",而是客户团队评估工作的能力与他们委托出去的工作量成正比地衰退了。

在每一个被标记为"供应商失败"的外包灾难背后,更深层的真相通常是相同的:客户方有人停止了关注,或者从未深入参与到能够有效关注的程度。验证能力退化了,因为客户团队不再亲自做这项工作,而你无法在停止实践的工作中保持专业能力。

AI委托以个人开发者的速度而非组织速度重现了这种动态。不是一个团队在几个季度内逐渐失去系统理解,而是单个开发者可以在几周内积累理解力债务。AI是世界上最快、最随叫随到、最顺从的外包商——当你不再仔细审查时,它从不反驳。

验证行为的相变

卡内基梅隆大学研究人员的最新理论工作正式化了为什么这个问题难以用简单方案解决。他们的框架将AI委托建模为具有相变的系统——不是渐进式下降,而是行为的突然、不连续转变。

关键发现:工作者验证可靠性的微小变化可以触发三种行为模式之间的突然跳跃——手动完成工作、带验证的委托、以及没有实质性监督的纯委托。当验证能力低于临界阈值时,工作者理性地过度委托,尽管拥有AI工具却经历质量退化。

这不是认知偏差问题。即使是完全理性的行为者,在现实约束下优化自己的生产力,当验证成本相对于感知收益较高时,也会过度委托。数学表明,AI访问权不成比例地惠及具有强评估能力的工作者,同时通过他们自己的理性选择使评估能力弱的工作者处于不利地位。

实际启示:告诉工程师"更仔细地审查AI代码"在审查本身需要正在退化的技能时是行不通的。你需要的是结构性干预,而不是口头劝诫。

审查流程的崩溃

传统的代码审查流程服务于两个容易混淆的目的:质量保证和知识传播。当高级工程师审查初级工程师的拉取请求时,他们既在捕获Bug,也在传递对系统设计决策、不变量和故障模式的理解。

AI生成的代码打破了这个循环。数量压倒了审查能力——AI辅助的拉取请求平均大154%,等待审查的时间延长4.6倍。在这种压力下,审查质量退化为橡皮图章。只有48%的开发者在提交前始终检查AI辅助的代码,尽管38%的人报告审查AI生成的逻辑比审查人写的代码需要更多努力。

结果是可以衡量的。随着AI的采用,每个作者的拉取请求同比增加了20%,但每个拉取请求的事故增加了23.5%。AI工具采用率增加90%与Bug率增加9%相关。AI生成的拉取请求接受率为32.7%,而人写的代码为84.4%。系统产生了更多输出,却发现了更少的问题。

保持验证能力

委托悖论没有完美的解决方案,但它确实有比意志力更有效的结构性缓解措施。

在AI辅助和非辅助工作之间轮换。 Anthropic的研究发现,无论AI工具是否存在,对代码的主动认知参与都能保持理解力。关键变量不是工具使用,而是开发者是在思考问题还是在接受解决方案。刻意在没有AI辅助的情况下完成一些工作,可以保持评估AI辅助工作输出所需的技能。

衡量理解力,而不仅仅是速度。 如果你的工程指标是速度、吞吐量和周期时间,你正在优化恰恰错误的东西。Gartner预测到2027年,50%的组织将强制要求无AI技能评估。你不需要等待那个指令。以调试为重点的代码审查、架构解释练习和定期的"从头开始写"会议可以在理解力差距变成生产事故之前将其暴露出来。

设置明确的AI生成阈值。 研究表明,对于大多数成熟团队,25-40%的AI代码生成率是最优范围,可以带来10-15%的生产力提升,同时保持审查开销和质量标准可控。超过这个范围,理解力债务的积累速度将超过团队偿还的速度。

将验证作为一流的工程技能。 将评估AI生成代码的能力视为一种独特的、可训练的能力——而不是一般工程经验的副产品。这意味着投资于能够呈现AI输出质量(不仅仅是"能否编译")的工具,专门针对生成代码的失败模式培训审查者,以及像奖励功能交付一样奖励彻底的审查。

令人不安的发展轨迹

委托悖论指向一个行业尚未直面的令人不安的问题:当下一代工程师从未做过他们所监督的工作时,会发生什么?

Stack Overflow的2025年调查发现,对AI代码准确性的信任度从40%下降到29%,46%的开发者主动不信任其输出。这种不信任是健康的——它意味着经验丰富的工程师仍然对AI输出何时出错有校准过的直觉。但这些直觉是通过多年的编写代码、调试故障和培养系统设计品味而建立的。如果下一代工程师从一开始就委托,这些直觉将不会形成。

AI委托悖论不是拒绝AI编码工具的理由。它们在特定场景中提供真正的价值——脚手架搭建、测试生成、样板代码消除。但成功使用它们的团队将是那些把验证能力视为需要主动投资的可耗竭资源,而不是每天上班的自然副产品的团队。

你最需要用来监督AI的技能,是你让AI做这项工作时退化最快的技能。承认这一点,你就能管理它。忽略它,你就是下一个外包警示故事——只是速度更快。

References:Let's stay in touch and Follow me for more thoughts and updates