跳到主要内容

提示词即配置:像对待生产基础架构一样管理 AI 设置

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数工程团队都能准确地告诉你哪个环境变量在控制他们的数据库连接池。但几乎没有人能告诉你现在是哪个版本的 system prompt 在处理 90% 的流量 —— 或者自上一次收到模型行为投诉以来发生了哪些变化。

这就是 AI 配置足迹(AI configuration footprint)问题。构建基于 LLM 功能的团队会积累一个隐形的配置层 —— 模型选择、采样参数(sampling parameters)、system prompts、工具 schemas、重试预算 —— 这些配置决定了他们的产品在生产环境中的行为。这一层的大部分内容都没有记录在案(system of record)。它们通过直接修改代码、交付电子表格或 Slack 消息进行更新。当出现问题时,没有人能说清楚发生了什么变化。

这不是流程问题,而是架构问题。解决方案需要以成熟团队对待环境配置、功能旗标(feature flags)和基础设施即代码(infrastructure-as-code)同样的严谨态度来处理 AI 配置。

你的 AI 配置足迹中到底包含什么

直觉上的答案是“提示词”。而真正的答案要广泛得多。

对 LLM 的每一次请求都由一堆设置组成,这些设置以不明显且有时是非线性的方式相互作用:

采样参数(Sampling parameters) —— temperature、top-p、frequency penalty、presence penalty、max tokens —— 控制着输出 token 的概率分布。配合模糊指令的 temperature 0.7 与配合相同指令的 temperature 0.1 产生的输出截然不同。这些设置不能脱离它们所配对的提示词进行独立审计。

系统提示词(System prompts)和指令前导语定义了行为护栏、角色、响应格式预期和任务框架。一个生产系统可能拥有一个主要的 system prompt,加上注入的上下文块,以及每个功能的指令片段 —— 每一个都有自己的变更历史,或者根本没有。

**工具 schema(Tool schemas)**在智能体(agentic)系统中指定了模型可以调用什么以及如何调用。更改工具的描述 —— 甚至不是它的实现,只是自然语言描述 —— 就会改变模型在模糊情况下选择调用哪个工具。

模型版本和提供商是最明显的维度,但往往是追踪最差的。许多团队并不将模型选择视为一个版本化的产出。他们在新模型发布时进行升级,并假设行为是等效的。

重试预算和回退逻辑(Fallback logic) —— 失败的调用是使用较低的 temperature 重试,还是回退到较小的模型,亦或是返回预设响应 —— 同样决定了用户看到的内容。这些决策是配置,而不是代码。

综上所述,这个堆栈就是你的 AI 配置足迹。大多数团队在管理这些内容时,都没有应用他们在基础设施代码上所使用的那种纪律。

为什么 AI 配置比环境变量更脆弱

标准的环境变量言如其意。当你重新措辞时,DATABASE_MAX_CONNECTIONS=50 不会改变它的效果。但 AI 配置的工作方式并非如此。

**概率放大(Probabilistic amplification)**意味着微小的变化会产生不可预测的连锁反应。在 system prompt 中更换一个同义词 —— 例如将“始终回复(always respond with)”替换为“使用……回复(respond using)” —— 会改变模型输出中每个 token 的概率分布。看似微不足道的编辑可能会在成千上万次调用中产生显著不同的行为。生产团队曾记录过,在进行了看似无害的提示词更改后的几小时内,结构化输出的错误率急剧飙升。

配置与内容相互作用。适用于特定 system prompt 的 temperature 设置,在相同指令的重新措辞版本中可能会失效。参数之间并不是独立的。你不能孤立地调整采样设置,并期望它们在提示词更改时保持正确的调整状态。

提供商端的漂移(Provider-side drift)是真实存在的。当模型提供商更新他们的模型时,即使你没有动过自己的配置,也可能会看到行为上的变化。斯坦福大学的一项著名研究测量了 GPT-4 在特定任务上的准确率在三个月内从 84% 下降到 51%,而期间并没有公开的版本变更。团队是从用户投诉中得知这种漂移的,而不是通过监控。

Token 成本对配置很敏感。增加了 500 个 tokens 的 system prompt,或者带有冗长描述的工具 schema,都会在大规模运行下增加单次请求的成本。有记录显示,优化不佳的 RAG 管道仅格式化开销就消耗了 40-70% 的 token 预算。当没有人负责配置足迹时,就没有人负责成本走向。

未经追踪的变更如何导致静默回退

最危险的配置失败不是那些导致系统崩溃的,而是那些悄无声息地降低系统质量的失败。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates