指令位置问题:你在提示词中放置内容的位置,就是一个架构决策
· 阅读需 10 分钟
你写了一个清晰的系统提示词。在测试环境中验证通过后,你将它部署上线了。三周后,一名用户发现你的安全约束并不能稳定触发——不是因为什么精妙的越狱手段,而是因为你在上个迭代中新增了一个400 token的上下文块,恰好把那条约束顶到了后面。模型就这样……忘了它的存在。
这就是指令位置问题——它不是你提示词里的一个bug,而是基于Transformer的模型处理序列的结构性属性。你提示词中的每一个token,并非获得相同的注意力权重。你放置指令的位置,以一种可量化的方式,决定着模型是否会遵从它。
