系统提示的措辞决定智能体的风险偏好
有一件事看似不该令人意外,但实际上出乎意料:当你告诉智能体"避免犯错"与"优先保证准确性"时,你给出的并不是同一条指令。在模糊决策点上,可观测到的行为存在可测量的差异——以损失规避框架提示的智能体更多地回避、升级和放弃端到端任务完成;以收益寻求框架提示的智能体完成更多任务,但在决策边界处会引入更多错误。这种差异并非哲学层面的;它会体现在评估日志中。
这就是智能体的行为经济学,而大多数工程团队尚未系统地思考过这个问题。他们把系统提示当作文档来写——描述智能体是什么——而实际上,系统提示是一种决策塑造工具,无论作者是否有意为之,它都在编码一种风险立场。
框架效应并非人类的特有缺陷——LLM 从训练数据中继承了它
行为经济学几十年前就已确立:人类并非对等价选择的中立评估者。告诉一个人他们可以拯救 600 人中的 200 人(收益框架),与告诉他们 600 人中有 400 人会死亡(损失框架),即便结果相同,他们也会做出不同选择。这就是框架效应,在经典意义上并不理性。
LLM 继承了这种不对称性。研究相同目标的收益框架与损失框架变体时发现,语言取向对选择分布的影响强于逻辑等价性。在正向框架("获得 X")下,模型倾向于确定性、风险规避的选项;在负向框架("避免失去 X")下,则倾向于合作但任务完成率更低的行为。GPT-4o 在损失域表现出比人类显著更强的风险寻求倾向——这与大多数工程师预设负向框架能产生谨慎行为的假设相悖。
一个尤为反直觉的规律是:模型回答"是"比回答"否"更难。在不确定性下,它们偏向于拒绝和否定。这意味着充斥着损失框架语言的系统提示("永远不要跳过步骤"、"避免假设"、"不确定时不要继续")可能产生一个在模糊任务上系统性地更容易放弃的智能体——不是因为被明确告知要放弃,而是因为累积的负向框架在不确定情况下催生了一种拒绝姿态。
相同的智能体,不同的风险预算
考虑同一核心指令的两种表述:
- 损失框架:"避免生成不正确的信息。不确定时永远不要继续。"
- 收益框架:"优先产生有用、准确的回应。在有足够把握时继续。"
这两种表述感觉上都是谨慎的,却产生了不同的智能体。损失框架版本在边界情况下显示出更高的升级率、在模糊输入上更低的任务完成率,以及输出中更多的回避性语言。收益框架版本完成更多任务,但在决策边界处引入更多错误。
这种差异并非随意的。研究系统提示中的动机框架如何影响智能体调试深度时发现,基于信任的框架("你很细致;找到你能找到的")会诱导更深入的调查,而基于恐惧的框架("避免遗漏明显问题")会导致智能体对已知类别进行模式匹配并提早停止。同样的机制适用于任何面临开放性决策点的智能体:信任框架鼓励探索;恐惧框架鼓励保守的模式完成。
使这在操作上具有重要意义的是,大多数生产系统提示是由工程师在时间压力下编写的,目的是防止已知的失败模式。本能反应是列举禁令:"不要做 X。永远不要做 Y。避免 Z。"这在构造上就是一个损失框架提示,它积累了一种可能比预期保守得多的风险立场——在没有相应安全改进的情况下侵蚀任务完成率。
锚定效应在对话中复合叠加
框架效应在多轮智能体中比在单次调用完成中更严重,原因在于锚定效应。系统提示的初始框架在整个对话中锚定了智能体行为,即使后续指令朝着不同方向引导,这个锚点也会持续存在。
关于 LLM 中锚定偏差的研究证实,模型和人类都会不成比例地重视提示词的初始上下文——但与人类不同,思维链推理和反思等简单缓解策略不足以消除锚点。模型在锚定框架内推理,而非逃脱它。
- https://arxiv.org/html/2508.08992
- https://arxiv.org/html/2506.23107
- https://arxiv.org/html/2603.19282v1
- https://dl.acm.org/doi/10.1145/3746252.3761350
- https://arxiv.org/html/2503.06646v1
- https://aclanthology.org/anthology-files/anthology-files/pdf/findings/2025.findings-acl.1085.pdf
- https://arxiv.org/html/2406.05972v1
- https://arxiv.org/html/2506.08837v1
- https://arxiv.org/html/2603.25056
- https://arxiv.org/html/2603.14373v1
- https://arxiv.org/html/2506.02357
- https://www.pnas.org/doi/10.1073/pnas.2412015122
- https://arxiv.org/html/2603.09890v1
- https://arxiv.org/html/2508.05687v1
- https://link.springer.com/article/10.1007/s42001-025-00435-2
- https://arxiv.org/pdf/2305.04400
- https://arxiv.org/html/2502.17091
