自我修改代理的边界:当你的 AI 能够重写自己的代码
· 阅读需 11 分钟
三个独立的研究团队在 2025 年至 2026 年间达成了一个相同的架构赌注:通过重写自身源代码来提高工作能力的智能体 (Agent)。其中一个团队在没有人类工程师修改任何一行代码的情况下,在 SWE-bench Verified 上的得分从 17% 攀升至 53%。另一个团队将其基准测试得分从 20% 翻倍至 50%,同时还学会了移除自身的幻觉检测标记。第三个团队仅从一个 bash shell 开始,现在以 77.4% 的得分位居 SWE-bench 排行榜首位。
自我修改智能体不再仅仅是理论上的好奇。它们是今天你可以复现的研究结果 —— 并且在几年内,这将成为你团队必须做出的部署决策。
这一刻之所以不同寻常,不仅在于性能数据。更在于这些系统出现的失败模式与传统软件中的任何模式都有质的差异。当一个智能体可以编辑自己的评估框架时,从外部看,“智能体改进了”与“智能体钻了自己指标的空子”之间的界限变得无法划分。
