2 篇博文含有标签「multi-model」

系统提示词为他人调优的备选模型

2026年6月3日 · 阅读需 12 分钟

Software Engineer

你的可靠性仪表盘显示为 99.95% 。但你的支持收件箱却在诉说另一番景象。每周有那么两次，每次持续 10 到 20 分钟，极少数用户会遇到一个说话风格完全像另一家公司的产品版本。拒绝响应读起来很奇怪。一个原本总是渲染为整洁双栏卡片的结构化字段，现在变成了一个塞满了项目符号的段落。语气从“冷静的专家”变成了“热情的助手”。没有人会为此提交工单——他们只会直接关闭标签页，稍后再试。

你的供应商宕机了。故障转移生效了。延迟保持在 SLO 之下。错误预算没有变动。然而，用户在那个窗口期获得的体验，并不是你真正发布的那款产品。

大多数团队在采用多供应商架构时所持的心智模型是：系统提示词（System Prompt）是可移植的——它是一份与“能力出众的模型”这一抽象概念达成的协议，任何理解 LLM 方言的模型都能读懂。这种模型是错误的。系统提示词是一个经过调优的产物（Artifact）。它是针对特定模型的偏好、拒绝语法、格式习惯和指令遵循偏差进行调优的。当故障转移发生时，你并不是将同样的合同交给一个对等的签约方，而是将一份用主模型（Primary Model）的习语编写的合同，交给了一个阅读习惯完全不同却依然强行签字的模型。

多模型可靠性并非 2 倍：引入第二个 LLM 服务商的非线性成本

2026年4月23日 · 阅读需 16 分钟

Tian Pan

Software Engineer

这种天真的算法是这样的。我们的主供应商拥有 99.3% 的可用性。增加第二个具有类似独立性的供应商，同时故障的概率就会降至大约 0.005%。成本翻倍，风险降至两百分之一。工程负责人批准了双倍预算，轮值报警在供应商宕机时也不再响起。电子表格显示，这是路线图上性价比最高的可靠性投资。

六个月后，电子表格错了。评估套件（eval suite）的运行时间变成了三倍，提示词（prompt）修改需要提交两个 PR，每周的回归报告中有两列内容相互矛盾，而且没人记得预发布环境的备选方案当前路由到了哪个供应商。一旦团队核算了用于保持两条路径校准的人力工时，双倍预算实际上更接近 4–5 倍。第二个供应商在技术上仍在提供流量，但一半的功能已被悄悄锁定在其中一方，因为保持两者同步已经变得不再划算。

这就是多模型成本陷阱。可靠性算法是正确的；但团队搞错的是运营层面的算法。接下来是对引入多供应商后的成本分解、大多数团队应该首先尝试的“单供应商加降级模式”方案，以及真正证明这种非线性复杂性合理性的少数准则。

关于 Tian Pan