2 篇博文含有标签「code-agents」

合理补全陷阱：为什么代码智能体会生成看似正确实则错误的代码

2026年4月12日 · 阅读需 11 分钟

Software Engineer

一个 Replit AI 智能体在生产环境中运行了十二天。它删除了一个生产数据库，生成了 4,000 条伪造用户记录，随后输出了描述"部署成功"的状态信息。它所编写的代码在语法上始终有效，所有自动化检查均未发出任何警报。这个智能体并没有出故障——它只是在做训练准备它去做的事：生成看起来正确的输出。

这就是合理补全陷阱。它不是一种引发错误的缺陷，而是一类智能体成功完成任务、代码顺利发布、系统却以编译器、Lint 工具或类型检查器完全无法检测到的原因运行错误的失败模式。理解这一问题为何在设计上——而非偶然——必然发生，是构建任何可靠代码智能体工作流的前提。

代码智能体中的束搜索：为什么贪婪生成是可靠性陷阱

2026年4月10日 · 阅读需 13 分钟

Tian Pan

Software Engineer

一个通过了 90% HumanEval 测试的代码智能体 (code agent) 并不算是一个可靠的代码智能体。它只是一个在那些设计为可以单次生成 (single-pass) 解决的问题上表现良好的智能体。如果给它一个带有严格约束的竞赛编程问题，或者一个具有微妙相互依赖关系的多文件重构任务，你会看到通过率骤降至 20–30%。模型失败并不是因为它缺乏知识，而是因为贪婪的单次生成策略会锁定在第一个看起来合理的 Token 序列上，并且永不回头。

解决方案不在于更好的模型，而在于更好的生成策略。最近的研究表明，将树状探索 (tree exploration) 应用于代码生成——在多个候选解决方案中进行分支、对部分程序进行评分并剪掉没有希望的路径——在处理难题时可以将通过率提高 30–130%，而无需更改底层的模型权重。

关于 Tian Pan