跳到主要内容

指令复杂度悬崖:为什么大语言模型能可靠遵循 5 条规则却无法遵循 15 条

· 阅读需 12 分钟
Tian Pan
Software Engineer

几乎在每一个生产环境的 AI 系统中都会出现这样一种模式:团队从一个精简的系统提示词(system prompt)开始,发布功能,然后不断迭代。出现了一个新的边缘案例,于是他们添加一条规则。又来了一个工单,再加一条规则。六个月后,系统提示词已经增加到了 2,000 个 token,涵盖了 20 个不同的行为要求。对于大多数请求,AI 听起来依然连贯。但微妙的合规性失败已经潜伏了数周——这里忽略了格式,那里跳过了语气要求,一条升级规则被悄悄绕过。没有人发现,因为没有哪个单独的失败严重到需要触发警报。

这不是模型质量问题。这是基于 Transformer 的语言模型处理指令的一种基本架构特性,大量的实证研究使得这些失败模式变得可预测。理解这一点将改变你编写系统提示词的方式。

合规性曲线并非线性

直觉上的心理模型是合规性呈线性下降:规则越多,模型漏掉规则的概率就按比例增加。实证数据展示了更糟糕的情况。

针对多个前沿模型在 10 到 500 条指令密度下的测试研究发现,根据模型架构的不同,存在三种截然不同的退化模式:

  • 阈值衰退 (Threshold decay):推理优化型模型(如 o3 和 Gemini 2.5 Pro)在指令密度达到 150–250 条的关键点之前,能保持近乎完美的表现,随后表现骤降且方差增大。它们面临一个“悬崖”。
  • 线性衰退 (Linear decay):某些模型在整个密度范围内表现出稳定且可预测的准确度下降——虽然糟糕,但至少是可以预见的。
  • 指数衰退 (Exponential decay):某些架构在 50–100 条指令后迅速崩溃,然后在低位趋于稳定。这些模型失效得很快。

在 500 条指令时,准确率数据揭示了真相:Gemini 2.5 Pro 维持在 68.9%,Claude 3.7 Sonnet 为 52.7%,GPT-4o 为 15.4%,而 Llama 4 Scout 仅为 6.7%。在极端指令密度下表现最好的模型仍然有 30% 的概率失效。表现最差的模型则丢失了 93% 的指令,通常是直接大规模省略,而不是尝试进行任何近似处理。

但生产环境的系统提示词很少达到 500 条。问题在更早阶段就开始出现了。

3 条约束阈值

对模型在叠加细粒度约束下的测试研究发现,实际限制低得惊人。当指令要求同时满足多个并发约束——内容类型、格式、语气和示例遵循——时,即使是 GPT-4 的平均一致满足水平也仅为 3.3 个约束。GPT-3.5 平均为 2.9 个。开源模型在 1.4 到 2.4 之间。

简而言之:“即使是领先的模型,平均也只能连续满足大约三个约束。”如果在单条指令中添加第四或第五个约束,合规性就不再可靠。

一个典型的生产环境系统提示词通常将远超三个的要求捆绑进单个逻辑单元中。“以友好且专业的语气回答,将答案格式化为编号列表,保持在 200 字以内,并始终提出一个后续问题”——这在一个呼吸间就包含了四个约束。如果模型还要处理另外五个类似这样的单元,你的运行状态就已经远超可靠性阈值了。

指令失效之地:提示词的中部

合规性问题不仅在于你拥有多少条规则,还在于它们位于提示词的什么位置。

关于模型如何使用长上下文的研究确立了所谓的“U 型性能曲线”:模型最可靠地关注提示词最开头和最末尾的信息。位于中间的内容获得的关注度显著降低。

这种效应的强度令人震惊。多文档问答任务显示,当相关文档从 20 个文档上下文中的第 1 位移至第 10 位时,准确率下降了 30% 以上。对于边界位置信息能达到近乎完美准确率的模型,对于中间位置内容的准确率则降至 40% 以下。

根本原因是架构性的。旋转位置嵌入(Rotary Position Embeddings)和因果注意力机制(causal attention mechanisms)引入了一种长期衰减效应,系统性地降低了中间上下文 token 的重要性。这不是一个会被修复的 bug,而是位置编码工作方式的结果。

这对系统提示词意味着:你最关心的指令可能被埋在长长的系统提示词中间,而这恰恰是模型最不可能遵循它们的地方。

位置效应复合为首因偏差

针对 104 个模型任务组合的序列位置研究发现,首因偏差(primacy bias)——即模型优先处理最先出现的内容——是主导模式,存在于 70% 的案例中。在分类任务中,指令列表的前三分之一占据了模型 40% 以上的注意力。在各种架构中,位于中间的指令始终获得的关注最少。

这在复杂的系统提示词中创造了一种可预测的失败动态:你的前几条规则会被可靠地遵循,最后几条有合理的成功机会(近因偏差有所帮助),而中间的一切都被系统性地削弱了权重。如果你的升级协议是 18 条规则中的第 11 条,它正处于注意力的谷底。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates