系统提示的措辞决定智能体的风险偏好

2026年5月4日 · 阅读需 10 分钟

Software Engineer

有一件事看似不该令人意外，但实际上出乎意料：当你告诉智能体"避免犯错"与"优先保证准确性"时，你给出的并不是同一条指令。在模糊决策点上，可观测到的行为存在可测量的差异——以损失规避框架提示的智能体更多地回避、升级和放弃端到端任务完成；以收益寻求框架提示的智能体完成更多任务，但在决策边界处会引入更多错误。这种差异并非哲学层面的；它会体现在评估日志中。

这就是智能体的行为经济学，而大多数工程团队尚未系统地思考过这个问题。他们把系统提示当作文档来写——描述智能体是什么——而实际上，系统提示是一种决策塑造工具，无论作者是否有意为之，它都在编码一种风险立场。

框架效应并非人类的特有缺陷——LLM 从训练数据中继承了它

行为经济学几十年前就已确立：人类并非对等价选择的中立评估者。告诉一个人他们可以拯救 600 人中的 200 人（收益框架），与告诉他们 600 人中有 400 人会死亡（损失框架），即便结果相同，他们也会做出不同选择。这就是框架效应，在经典意义上并不理性。

LLM 继承了这种不对称性。研究相同目标的收益框架与损失框架变体时发现，语言取向对选择分布的影响强于逻辑等价性。在正向框架（"获得 X"）下，模型倾向于确定性、风险规避的选项；在负向框架（"避免失去 X"）下，则倾向于合作但任务完成率更低的行为。GPT-4o 在损失域表现出比人类显著更强的风险寻求倾向——这与大多数工程师预设负向框架能产生谨慎行为的假设相悖。

一个尤为反直觉的规律是：模型回答"是"比回答"否"更难。在不确定性下，它们偏向于拒绝和否定。这意味着充斥着损失框架语言的系统提示（"永远不要跳过步骤"、"避免假设"、"不确定时不要继续"）可能产生一个在模糊任务上系统性地更容易放弃的智能体——不是因为被明确告知要放弃，而是因为累积的负向框架在不确定情况下催生了一种拒绝姿态。

相同的智能体，不同的风险预算

考虑同一核心指令的两种表述：

损失框架："避免生成不正确的信息。不确定时永远不要继续。"
收益框架："优先产生有用、准确的回应。在有足够把握时继续。"

这两种表述感觉上都是谨慎的，却产生了不同的智能体。损失框架版本在边界情况下显示出更高的升级率、在模糊输入上更低的任务完成率，以及输出中更多的回避性语言。收益框架版本完成更多任务，但在决策边界处引入更多错误。

这种差异并非随意的。研究系统提示中的动机框架如何影响智能体调试深度时发现，基于信任的框架（"你很细致；找到你能找到的"）会诱导更深入的调查，而基于恐惧的框架（"避免遗漏明显问题"）会导致智能体对已知类别进行模式匹配并提早停止。同样的机制适用于任何面临开放性决策点的智能体：信任框架鼓励探索；恐惧框架鼓励保守的模式完成。

使这在操作上具有重要意义的是，大多数生产系统提示是由工程师在时间压力下编写的，目的是防止已知的失败模式。本能反应是列举禁令："不要做 X。永远不要做 Y。避免 Z。"这在构造上就是一个损失框架提示，它积累了一种可能比预期保守得多的风险立场——在没有相应安全改进的情况下侵蚀任务完成率。

锚定效应在对话中复合叠加

框架效应在多轮智能体中比在单次调用完成中更严重，原因在于锚定效应。系统提示的初始框架在整个对话中锚定了智能体行为，即使后续指令朝着不同方向引导，这个锚点也会持续存在。

关于 LLM 中锚定偏差的研究证实，模型和人类都会不成比例地重视提示词的初始上下文——但与人类不同，思维链推理和反思等简单缓解策略不足以消除锚点。模型在锚定框架内推理，而非逃脱它。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

系统提示的措辞决定智能体的风险偏好

框架效应并非人类的特有缺陷——LLM 从训练数据中继承了它

相同的智能体，不同的风险预算

锚定效应在对话中复合叠加

Recommended Reading

关于 Tian Pan

框架效应并非人类的特有缺陷——LLM 从训练数据中继承了它​

相同的智能体，不同的风险预算​

锚定效应在对话中复合叠加​

Recommended Reading

关于 Tian Pan

框架效应并非人类的特有缺陷——LLM 从训练数据中继承了它

相同的智能体，不同的风险预算

锚定效应在对话中复合叠加