“AI 让我这么做的”辩护:当代码审查悄然停止提出异议
在 2026 年的代码审查(Code Review)讨论串中,最昂贵的一句话莫过于“这是 Agent 这么写的”。这并非因为它本身是错的——有时它确实没错——而是因为它终止了本该由此开启的对话。审查者输入一个问题,作者直接引用模型的推理作为回复,讨论在任何人真正开始争论这项变更之前就结束了。反对一个自信且谈吐得体的模型的社交成本,已经悄然高过了合并一个隐蔽 Bug 的成本,而大多数团队在未来两个季度内都无法在指标中察觉到这种权衡。
这不是一个关于 AI 写代码好坏的故事。它会写代码,其中有些还写得不错。这是一个关于当编写代码的摩擦消失时,质量关卡(Quality Gate)会发生什么的故事。审查速度上升,缺陷率也随之同步上升,而这种关联并不明显,因为没有人在追踪审查耗时与缺陷时会关联作者的类别。曾经是代码库品味核心的资深工程师,在一个悄然转向“模型盲从”的文化中,变成了孤独的坚持者。
缺陷率已 经变了——而审查标准还没跟上
在对 470 个 PR 样本的调查中,CodeRabbit 发现 AI 协同生成的变更平均每个 PR 会产生 10.83 个问题,而纯人工编写的 PR 仅为 6.45 个——大约高出 1.7 倍。在最关键的环节,情况更糟:逻辑和正确性问题在 AI 生成的 diff 中多出 75%,安全漏洞高出 2.74 倍,错误处理缺失近 2 倍,可读性问题更是高出 3 倍。GitClear 对 2025 年 1.53 亿行变更代码的分析发现,代码重复率上升了 4 倍,且短期代码流转(churn)也在上升,因为 AI 工具放大了那些 Linter 无法捕捉的复制粘贴模式。
这些数字描述的是进入你审查队列的输入,而非合并按钮产生的输出。审查过程本应是消除输入波动、确保输出质量稳定的层级。过去,它依赖于审查者已经校准过的少量产出物:人类 PR 的典型规模、人类作者的典型置信水平,以及人类犯粗心错误时的典型表现。现在,这些先验经验在 Agent 编写的代码面前全都失效了,但大多数团队的审查清单仍停留在旧的分布模式上。
结果是不对称的。缺陷率首先发生变化,因为编写工具首先变了。而审查标准的提高只能源于审慎的组织决策。在没有这种决策的情况下,合并按钮产生的代码质量已经与以往大不相同。
