AI 数秒生成代码，团队却花数小时审查——这笔账根本不对

2026年5月6日 · 阅读需 9 分钟

Software Engineer

AI 编程工具的 ROI 宣传在纸面上看起来无懈可击：在受控实验中，开发者完成任务的速度提升了 55%，合并的 Pull Request 数量增加了 98%，每周据称节省 3.6 小时。但当组织审视真实的交付指标——Bug 率、发布周期、故障频率——时，数字几乎没有任何变化。某些东西吸走了所有增益的时间，而它并不难找。

AI 数秒生成代码。工程师的审查速度，却和以前一样慢。

这种不对称——快速生成，缓慢验证——是每一个 AI 编程生产力声明背后隐藏的税。理解这一点的团队正在重建他们的工作流程。那些没有意识到的团队，只是买了一台更快的跑步机，却疑惑为什么没有前进。

PR 审查时间暴涨 91%

当工程师大规模采用 AI 编程工具时，Pull Request 数量会急剧增加。Cursor 自己的研究发现，采用 AI 智能体后，开发者合并 PR 的数量增加了 39%。GitHub Copilot 的数据也显示了类似的模式。生成的代码越多，需要审查的代码就越多。

但阅读理解的速度没有提升 39%。工程师仍然需要理解上下文、建立对变更系统的心理模型、考虑边界情况、评估安全影响。结果是可量化的：在 AI 高采用率团队（70% 以上代码由 AI 生成）中，PR 审查时间增加了 91%，而 Bug 率与低采用率团队相比攀升了 9%。

2025 年 DORA 报告清晰地呈现了这一悖论：AI 编程助手带来了完成任务数量增加 21%、合并 PR 数量增加 98%，但组织层面的交付指标——真正衡量软件交付能力的指标——却纹丝不动。所有这些额外的 PR 都流入了一个没有扩容的审查队列。

这就是为什么 ROI 计算如此具有误导性。衡量"写代码的时间"捕捉的是容易的那部分。衡量"交付正确、安全、可维护代码的总成本"则是另一回事。

为什么 AI 生成的代码更难审查

问题不只是数量。AI 生成的代码具有特定的结构属性，使得审查它比审查等量的人工编写代码更慢、风险更高。

CodeRabbit 的分析发现，AI 辅助编写的 Pull Request 包含的问题是人工编写代码的 1.7 倍。SonarSource 发现 45% 的 AI 生成代码包含 OWASP Top 10 安全漏洞——是人工代码的 2.74 倍。逻辑和正确性问题多 75%；错误处理缺陷多近 2 倍；可读性问题多 3 倍。

这对审查经济学至关重要，因为有问题的代码需要更多时间来审查，而不是更少。当某些东西看起来有问题但审查者无法立即说清楚原因时，他们会放慢脚步。他们需要追踪更多代码路径、编写更多测试用例以建立信心，并在代码评论中花更多时间来回沟通。一个同事写的 PR 可能需要 20 分钟审查，但 AI 写的 PR 可能需要 40 分钟——而审查者往往没有意识到这正在发生。

METR 的随机对照实验结果——常被引用来否定 AI 生产力收益——在这个框架下更有意义：与不使用 AI 辅助相比，有经验的开发者在使用 AI 辅助时慢了 19%。生成速度的提升是存在的。验证开销将其完全消耗殆尽。

任务分类：哪里的数学成立，哪里不成立

并非所有代码的验证成本都相同。AI 在生产力经济学上明显获胜的任务有一个共同特征：正确性标准狭窄且容易确认。

低验证开销：

样板代码和脚手架（测试文件、API 桩、配置文件）
文档和文档字符串生成
附有清晰变更日志的依赖更新
遵循既定模式的代码迁移（例如，迁移指南明确的库版本升级）
有复现案例的简单、独立 Bug 修复

高验证开销：

具有非明显边界情况的业务逻辑
安全关键路径：认证、授权、数据处理
影响多个子系统的架构变更
API 合约修改（破坏性与非破坏性往往难以判断）
生产系统中的数据模型演进
任何"看起来正确"与"实际上正确"相差甚远的代码

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 数秒生成代码，团队却花数小时审查——这笔账根本不对

PR 审查时间暴涨 91%

为什么 AI 生成的代码更难审查

任务分类：哪里的数学成立，哪里不成立

Recommended Reading

关于 Tian Pan

PR 审查时间暴涨 91%​

为什么 AI 生成的代码更难审查​

任务分类：哪里的数学成立，哪里不成立​

Recommended Reading

关于 Tian Pan

PR 审查时间暴涨 91%

为什么 AI 生成的代码更难审查

任务分类：哪里的数学成立，哪里不成立