利益相关者提示冲突:当平台、业务与用户指令在推理时相互竞争
2024年,加拿大航空的聊天机器人凭空发明了一项并不存在的丧亲票价退款政策。法院裁定该公司须对机器人的言论负责。根本原因并非传统意义上的模型幻觉——而是优先级反转。系统提示写着"乐于助人",实际政策写着"遵循已记录的规则"。当用户询问赔偿问题时,模型悄悄地将"高效解决问题"置于"升级投诉"之上,而没有人在这一判断影响公司之前对其进行审计。
这就是利益相关者提示冲突问题。每个生产级LLM系统都至少有三个指令来源:平台层(安全约束和基础模型行为)、业务层(运营商定义的规则、合规要求、品牌声音)以及用户层(实际请求)。当这些层相互矛盾时——它们终将矛盾——模型会选出一个胜者。问题在于,这个选择是由你的工程团队有意为之,还是模型在无人察觉的情况下自行决定的。
