跳到主要内容

AI 数秒生成代码,团队却花数小时审查——这笔账根本不对

· 阅读需 9 分钟
Tian Pan
Software Engineer

AI 编程工具的 ROI 宣传在纸面上看起来无懈可击:在受控实验中,开发者完成任务的速度提升了 55%,合并的 Pull Request 数量增加了 98%,每周据称节省 3.6 小时。但当组织审视真实的交付指标——Bug 率、发布周期、故障频率——时,数字几乎没有任何变化。某些东西吸走了所有增益的时间,而它并不难找。

AI 数秒生成代码。工程师的审查速度,却和以前一样慢。

这种不对称——快速生成,缓慢验证——是每一个 AI 编程生产力声明背后隐藏的税。理解这一点的团队正在重建他们的工作流程。那些没有意识到的团队,只是买了一台更快的跑步机,却疑惑为什么没有前进。

PR 审查时间暴涨 91%

当工程师大规模采用 AI 编程工具时,Pull Request 数量会急剧增加。Cursor 自己的研究发现,采用 AI 智能体后,开发者合并 PR 的数量增加了 39%。GitHub Copilot 的数据也显示了类似的模式。生成的代码越多,需要审查的代码就越多。

但阅读理解的速度没有提升 39%。工程师仍然需要理解上下文、建立对变更系统的心理模型、考虑边界情况、评估安全影响。结果是可量化的:在 AI 高采用率团队(70% 以上代码由 AI 生成)中,PR 审查时间增加了 91%,而 Bug 率与低采用率团队相比攀升了 9%。

2025 年 DORA 报告清晰地呈现了这一悖论:AI 编程助手带来了完成任务数量增加 21%、合并 PR 数量增加 98%,但组织层面的交付指标——真正衡量软件交付能力的指标——却纹丝不动。所有这些额外的 PR 都流入了一个没有扩容的审查队列。

这就是为什么 ROI 计算如此具有误导性。衡量"写代码的时间"捕捉的是容易的那部分。衡量"交付正确、安全、可维护代码的总成本"则是另一回事。

为什么 AI 生成的代码更难审查

问题不只是数量。AI 生成的代码具有特定的结构属性,使得审查它比审查等量的人工编写代码更慢、风险更高。

CodeRabbit 的分析发现,AI 辅助编写的 Pull Request 包含的问题是人工编写代码的 1.7 倍。SonarSource 发现 45% 的 AI 生成代码包含 OWASP Top 10 安全漏洞——是人工代码的 2.74 倍。逻辑和正确性问题多 75%;错误处理缺陷多近 2 倍;可读性问题多 3 倍。

这对审查经济学至关重要,因为有问题的代码需要更多时间来审查,而不是更少。当某些东西看起来有问题但审查者无法立即说清楚原因时,他们会放慢脚步。他们需要追踪更多代码路径、编写更多测试用例以建立信心,并在代码评论中花更多时间来回沟通。一个同事写的 PR 可能需要 20 分钟审查,但 AI 写的 PR 可能需要 40 分钟——而审查者往往没有意识到这正在发生。

METR 的随机对照实验结果——常被引用来否定 AI 生产力收益——在这个框架下更有意义:与不使用 AI 辅助相比,有经验的开发者在使用 AI 辅助时慢了 19%。生成速度的提升是存在的。验证开销将其完全消耗殆尽。

任务分类:哪里的数学成立,哪里不成立

并非所有代码的验证成本都相同。AI 在生产力经济学上明显获胜的任务有一个共同特征:正确性标准狭窄且容易确认。

低验证开销:

  • 样板代码和脚手架(测试文件、API 桩、配置文件)
  • 文档和文档字符串生成
  • 附有清晰变更日志的依赖更新
  • 遵循既定模式的代码迁移(例如,迁移指南明确的库版本升级)
  • 有复现案例的简单、独立 Bug 修复

高验证开销:

  • 具有非明显边界情况的业务逻辑
  • 安全关键路径:认证、授权、数据处理
  • 影响多个子系统的架构变更
  • API 合约修改(破坏性与非破坏性往往难以判断)
  • 生产系统中的数据模型演进
  • 任何"看起来正确"与"实际上正确"相差甚远的代码
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates