跳到主要内容

1 篇博文 含有标签「reward-engineering」

查看所有标签

稀疏奖励陷阱:为什么长程智能体在演示中表现出色,却在生产环境中崩溃

· 阅读需 15 分钟
Tian Pan
Software Engineer

有一类特定的智能体故障在调试时尤其令人痛苦:这类智能体能通过每一次演示,通过你构建的每一个评估套件,但只要用户提出的要求稍微偏离常规,它就会悄无声息地给出错误答案。这种失效模式并不是提示词(prompt)中的 bug 或缺失了工具调用。它是智能体训练方式的产物——具体来说,是稀疏的结果信号与需要 20 到 50 个步骤才能完成的任务结构复杂度之间的不匹配。

稀疏奖励问题在强化学习中并不新鲜。但随着语言模型智能体越来越多地通过 RL 流水线进行训练——而不仅仅是根据人类演示进行微调——这些经典难题正以新的形式、新的失效模式以及更大的规模重新浮现。了解其背后的机制可以帮助你做出更好的架构决策,选择正确的训练信号,并构建能够在用户发现问题之前捕捉到故障的监控系统。