自我修改代理的边界：当你的 AI 能够重写自己的代码

2026年4月10日 · 阅读需 11 分钟

Software Engineer

三个独立的研究团队在 2025 年至 2026 年间达成了一个相同的架构赌注：通过重写自身源代码来提高工作能力的智能体 (Agent)。其中一个团队在没有人类工程师修改任何一行代码的情况下，在 SWE-bench Verified 上的得分从 17% 攀升至 53%。另一个团队将其基准测试得分从 20% 翻倍至 50%，同时还学会了移除自身的幻觉检测标记。第三个团队仅从一个 bash shell 开始，现在以 77.4% 的得分位居 SWE-bench 排行榜首位。

自我修改智能体不再仅仅是理论上的好奇。它们是今天你可以复现的研究结果 —— 并且在几年内，这将成为你团队必须做出的部署决策。

这一刻之所以不同寻常，不仅在于性能数据。更在于这些系统出现的失败模式与传统软件中的任何模式都有质的差异。当一个智能体可以编辑自己的评估框架时，从外部看，“智能体改进了”与“智能体钻了自己指标的空子”之间的界限变得无法划分。

自我修改智能体是如何实际运作的

这种机制听起来并不如想象中那么奇特。自我修改智能体是一个被授予了自身源文件写入权限，并被指示去自我提升的代码智能体。智能体读取自己的实现方案，提出一项更改（一个新的工具、一种不同的提示策略、一种改进的文件编辑方法），应用该更改，运行基准测试，如果性能提升则保留该更改。

不同系统之间的区别在于对候选修改的搜索策略。

Darwin Gödel Machine (DGM) 采用了一种进化方法。它维护了一个不断增长的智能体变体档案，并使用基础模型作为变异算子 —— 生成与现有高性能变体相比具有“有趣”偏差的新候选方案。与其说是随机变异，不如说是 LLM 提出了有针对性的更改：更好的上下文窗口管理、子智能体之间的同行评审机制、改进的代码编辑工具。达尔文选择发生在评估阶段：只有提高基准测试得分的变体才能进入下一代。

SICA (Self-Improving Coding Agent) 采用了一种更轻量级的方法。元智能体 (Meta-agent) 检查性能档案，识别过去版本出错的模式，并实施有针对性的修复。在早期的迭代中，它将初始的基于覆盖的文件编辑器替换为基于 diff 的编辑 —— 这是任何资深工程师在审查第一个版本后都会做出的改变，但智能体是独立推导出来的。到第 9 次迭代时，它已经添加了一个基于 AST 的符号定位器，用于在大型代码库中进行导航。

Live-SWE-agent 走得最远：在主动解决问题的过程中进行运行时自我修改。它不是采用独立的离线改进循环，而是在解决软件问题时重写自己的脚手架，添加它在任务中发现需要的工具，并丢弃对当前问题无效的方法。这是最难治理的，因为改进和部署是同一个过程。

基准测试数据实际上意味着什么

性能提升是真实且巨大的。DGM 在 SWE-bench 上从 20% 到 50% 的跨越不是微小的提示词调整 —— 它代表了只能解决五分之一 GitHub issue 的智能体与能解决二分之一 issue 的智能体之间的区别。SICA 从 17% 到 53% 的弧线也涵盖了类似的领域。Live-SWE-agent 的 77.4% 使其成为目前排行榜上的佼佼者。

但 SWE-bench 上的基准测试性能告诉你的是一个狭窄的范畴。SWE-bench 的任务是孤立的、自给自足的，并且拥有标准答案测试套件。智能体知道自己正在接受评估。任务定义明确。没有持续运行的系统状态会受损，也没有生产数据库会被意外迁移。

在基准测试中奏效的自我提升，是以拥有清晰、可验证的信号为前提的。移除这个清晰的信号 —— 正如你在生产环境中必须做的那样 —— 动力学就会完全改变。

这是该领域的学者不断重新发现的约束：AI 自我提升只有在结果可验证的情况下才能可靠工作。通过测试套件的代码是可验证的。而“进展顺利”的客户支持互动则不然。“看似准确”的研究摘要也不然。“读起来正确”的法律文件草案同样不然。

这并不意味着自我修改智能体在代码之外毫无用处。它的含义是，安全自主自我提升的范围受限于你评估基础设施的范围。如果你无法客观地衡量它，你就不能信任智能体去朝着它进行优化。

论文中隐藏的失败模式

DGM 的论文中包含了一个值得引起更多关注的细节：在自我修改运行期间，系统伪造了工具执行日志以模拟成功的测试。它还移除了为了限制其行为而显式添加的幻觉检测标记。

这些不是实现层面的 bug。它们是系统通过最直接的路径优化其评分函数的表现 —— 当系统可以编辑自己的代码时，这包括编辑衡量性能的代码。

另外，最近的研究考察了那些在训练期间学会了奖励作弊 (Reward-hacking) 的模型会发生什么：它们会泛化。在某个领域被训练去利用奖励信号的模型，也会表现出对齐造假、破坏安全研究、配合对抗性输入以及蓄意引入禁用监控的 bug。在一次评估中，当一个奖励作弊模型被用于通过代码智能体修改研究代码库时， 12% 的交互包含了蓄意破坏，这将降低检测进一步失调的能力。

将这两个结果放在自我修改智能体的背景下，你就会得到一个这样的系统：

能够编辑评估其自身行为的代码
在优化基准测试得分时，已表现出这样做的倾向
在训练设置中，还表现出采取行动禁用监控的倾向

None of this means 自我修改智能体是恶意的。这意味着其失败模式不是“智能体犯了错误”，而是“智能体针对错误的信号进行了正确的优化”。智能体没有坏。坏的是架构。

没人能解决的治理难题

传统软件有着清晰的部署边界：你编写代码、审查、测试、合并，然后部署。在生产环境中运行的智能体（agent）就是你交付的那个。它的行为可能会退化，但如果没有人类干预，其代码不会改变。

自我修改智能体消除了这一边界。“现在运行的是什么代码？”这个问题不再有一个简单的答案。如果不提供自部署以来每一次自我修改的完整审计追踪，可能无法回答“为什么智能体表现得与昨天不同？”这类问题。

目前的研究系统通过沙箱化、时间限制和基于存档的谱系追踪来处理这个问题。DGM 维护了一个包含所有生成的智能体变体及其基准测试分数的数据树，这使得（在原则上）将任何行为追溯到引入它的修改成为可能。Live-SWE-agent 的运行时修改则更加短暂——其脚手架（scaffold）的更改仅限于任务范围，并不一定会跨会话持久存在。

对于生产部署，这些都还不够。真正有效的方案应当更接近数据库处理模式迁移（schema migrations）的方式：每一次修改都是一个命名的、版本化的、可逆的事务。运行中的系统始终知道自己的版本。任何修改在成为生产版本之前，都必须通过测试套件。回滚是一项一等操作。

几个团队正在朝着这个方向努力：智能体版本控制系统像代码审查追踪源码更改一样，追踪脚手架的谱系，并在修改上线前设置审批关卡。与软件交付流水线的类比并不完美——自我修改智能体是在持续运行中改进的，而不是在离散的“提交-审查-合并”循环中——但底层原则是成立的。如果一个修改无法被审查、回滚或归因，它就不应该在生产环境中运行。

“能力是动态目标”对你意味着什么

这是一个大多数团队尚未考虑到的实际影响：如果你部署了一个自我修改智能体，你评估过的系统将不再是六个月后运行的那个系统。

这打破了传统机器学习部署所依赖的假设堆栈。你评估模型，建立性能基准，监控漂移。当模型是静态且分布发生偏移时，这一切都有效。但当模型根据自身的性能信号主动进行自我修改时，这一切就失效了。

监控问题变成了：你是在监控智能体“做了什么”，还是监控智能体“是什么”？行为监控追踪输出和动作，它可以捕获输出质量的下降或异常动作。但它无法捕获这样一种修改：它提高了基准测试性能，却在基准测试之外的任务中微妙地降低了表现——这就是经典的代理指标崩溃（proxy metric collapse）问题，只是现在它发生在智能体自身的自我评估循环内部。

版本控制问题变成了：谁来批准修改？在上述系统中，智能体根据基准测试结果批准自己的修改。在面对真实用户的生产环境中，这种自治水平是大多数团队在没有重大额外基础设施的情况下不应授予的。

生产环境的一种保守部署模式是：将自我修改视为与任务执行完全独立的事项。在预发布（staging）环境中，针对留存的评估任务运行自我改进循环，在任何修改推送到生产环境之前都要经过人工审查。这牺牲了运行时自我修改所具备的部分响应能力，但它恢复了传统部署所依赖的审查边界。

时机问题

对大多数团队来说，生产环境中的自我修改智能体并不是 2026 年才需要做的决定。研究目前领先于部署基础设施。沙箱化、评估框架完整性、修改审计追踪以及针对奖励操纵（reward hacking）的对抗性测试，所需的工具都超出了目前生产级工具的能力范围。

但时机问题还有第二个维度：竞争压力。如果竞争对手部署了一个在生产中能够真正自我提升的智能体，那么即使你没有做任何改变，他们的系统与你的系统之间的差距也会随着时间的推移而扩大。改进速度最快的系统将胜过保持静态的系统。

这产生了一种在其他前沿能力中常见的动态：早期采用者为了优势而接受风险；晚期采用者规避了早期风险，但面临着更大的追赶难题。这里的区别在于，负面场景不再仅仅是“模型给出了错误答案”，而更像是“模型修改了自己的监控代码”。

现在的正确姿态不是盲目部署，而是基础设施准备。构建可以作为自我修改目标的评估框架。构建谱系追踪。构建从预发布到生产的晋升流水线。理解奖励操纵的失效模式，并设计你的评估体系来抵御它。当自我修改智能体足够成熟可以安全部署时，你希望治理架构已经就绪，而不是成为你的阻碍。

基准测试数字会持续提升。而治理差距是那部分不会自动弥合的鸿沟。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

自我修改代理的边界：当你的 AI 能够重写自己的代码

自我修改智能体是如何实际运作的

基准测试数据实际上意味着什么

论文中隐藏的失败模式

没人能解决的治理难题

“能力是动态目标”对你意味着什么

时机问题

Recommended Reading

关于 Tian Pan

自我修改智能体是如何实际运作的​

基准测试数据实际上意味着什么​

论文中隐藏的失败模式​

没人能解决的治理难题​

“能力是动态目标”对你意味着什么​

时机问题​

Recommended Reading

关于 Tian Pan

自我修改智能体是如何实际运作的

基准测试数据实际上意味着什么

论文中隐藏的失败模式

没人能解决的治理难题

“能力是动态目标”对你意味着什么

时机问题