Prompt 金丝雀部署:像资深 SRE 一样发布 Prompt 变更
你的团队在周二下午发布了一个提示词(prompt)修改。改动看起来很合理——你收紧了系统提示词,删除了冗余指令,并添加了更明确的语气指令。预发布环境(Staging)看起来没问题。你上线了。到周三早上,你的支持工单量翻了一番。在这次收紧过程中,你破坏了模型识别某类用户查询的能力,而这些查询以前是可以优雅处理的。你的 HTTP 错误率是 0%。你的仪表盘显示全绿。在人工查阅工单之前,这个问题是隐形的。
这是 LLM 生产系统的典型故障模式。提示词变更会静默失败。它们在产生垃圾内容的同时返回 200 OK。它们的性能下降方式是单元测试无法捕捉、错误率监控无法标记、仪表盘也无法体现的。解决方案不是在预发布环境进行更好的测试,而是将每一次提示词变更都视为一次生产部署,采用与关键代码发布相同的流量分片、回滚和监控纪律。
