2 篇博文含有标签「reinforcement-learning」

稀疏奖励陷阱：为什么长程智能体在演示中表现出色，却在生产环境中崩溃

2026年4月17日 · 阅读需 15 分钟

Software Engineer

有一类特定的智能体故障在调试时尤其令人痛苦：这类智能体能通过每一次演示，通过你构建的每一个评估套件，但只要用户提出的要求稍微偏离常规，它就会悄无声息地给出错误答案。这种失效模式并不是提示词（prompt）中的 bug 或缺失了工具调用。它是智能体训练方式的产物——具体来说，是稀疏的结果信号与需要 20 到 50 个步骤才能完成的任务结构复杂度之间的不匹配。

稀疏奖励问题在强化学习中并不新鲜。但随着语言模型智能体越来越多地通过 RL 流水线进行训练——而不仅仅是根据人类演示进行微调——这些经典难题正以新的形式、新的失效模式以及更大的规模重新浮现。了解其背后的机制可以帮助你做出更好的架构决策，选择正确的训练信号，并构建能够在用户发现问题之前捕捉到故障的监控系统。

智能体如何自我学习：闭环自我提升架构

2026年4月10日 · 阅读需 13 分钟

Tian Pan

Software Engineer

训练智能体最昂贵的部分不是 GPU 时间，而是对多步任务的成功或失败进行标注的人类标注员。对长程智能体轨迹（例如验证智能体是否正确预订了机票、编写了功能性程序或填写了法律表格）进行单次专家标注的成本可能超过数千次推理调用。“闭环自我改进”是一种架构模式，它通过用自动验证器取代人类判断，然后利用该验证器在没有任何人工参与的情况下运行“生成-尝试-验证-训练”循环，从而消除了这一瓶颈。如果操作得当，它是行之有效的：最近的一篇 NeurIPS 论文显示，在没有任何人类标注的情况下，该模式将多轮工具使用环境下的平均任务成功率从 12% 提高到 23.5%，翻了一番。

核心见解不在于模型能够自我改进，而在于验证器是免费的。代码执行以毫秒为单位确定性地返回通过/失败信号，边际成本几乎为零。当你的任务具有可检查的结果时，你可以每小时运行数千个训练情节，并带有模型无法伪造的真值标签（假设你的沙箱设计正确）。这个假设承载了大量工作，我们稍后会再谈到它。

关于 Tian Pan