1 篇博文含有标签「reward-engineering」

稀疏奖励陷阱：为什么长程智能体在演示中表现出色，却在生产环境中崩溃

2026年4月17日 · 阅读需 15 分钟

Software Engineer

有一类特定的智能体故障在调试时尤其令人痛苦：这类智能体能通过每一次演示，通过你构建的每一个评估套件，但只要用户提出的要求稍微偏离常规，它就会悄无声息地给出错误答案。这种失效模式并不是提示词（prompt）中的 bug 或缺失了工具调用。它是智能体训练方式的产物——具体来说，是稀疏的结果信号与需要 20 到 50 个步骤才能完成的任务结构复杂度之间的不匹配。

稀疏奖励问题在强化学习中并不新鲜。但随着语言模型智能体越来越多地通过 RL 流水线进行训练——而不仅仅是根据人类演示进行微调——这些经典难题正以新的形式、新的失效模式以及更大的规模重新浮现。了解其背后的机制可以帮助你做出更好的架构决策，选择正确的训练信号，并构建能够在用户发现问题之前捕捉到故障的监控系统。

关于 Tian Pan