26 篇博文含有标签「deployment」

为什么 AI 功能开关不同于普通功能开关

2026年4月20日 · 阅读需 12 分钟

Software Engineer

金丝雀部署完美收工：错误率纹丝不动，延迟没有飙升，监控大盘一片绿色。你将新模型全量推送给所有流量——三周后，客服队列里挤满了用户投诉，说 AI "感觉不对劲"、"不再有用了"。

这正是将传统功能开关机制套用到 AI 系统上的核心问题。一个模型可以在"没有崩溃"的情况下悄悄退化：它照常返回 200 状态码，以正常速度生成 token，输出的文本也能通过表面校验——但与此同时，它的幻觉频率在悄悄上升，回答越来越简短或回避，或者在你的用户真正依赖的细微推理模式上悄然退步。你多年来一直监控的遥测指标，从来就不是为了捕捉这类故障而设计的。

LLM 升级的金丝雀发布：为什么模型上线与代码部署的失效方式完全不同

2026年4月20日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的 CI 通过了。你的评估（evals）看起来没问题。你切换了流量开关，然后继续工作。三天后，一位客户提交了一个工单，称生成的每一份报告都不再包含 summary 字段。你翻阅日志发现，新模型开始稳定地生成 exec_summary —— 这是一个隐蔽的键名重命名，由于你忘记将其添加到发布门禁（rollout gates）中，你的 JSON schema 验证从未捕获到这一点。根本原因是模型升级。检测滞后时间为 72 小时。

这并非假设。在那些拥有复杂应用代码部署流水线，却将 LLM 版本升级视为基本“免费” —— 仅是配置更换而非部署 —— 的公司里，这种情况屡见不鲜。这种思维模型是错误的，由此导致的失败模式极其难以捕捉。

从影子模式到自动驾驶：AI功能自主性的准备框架

2026年4月20日 · 阅读需 11 分钟

Tian Pan

Software Engineer

某金融科技公司首次部署AI交易审批代理时，产品团队在一周离线评估结果良好后便确信模型已准备好自主运行。他们将其推进至副驾驶模式——代理提出审批建议，人工可以覆盖——审批率看起来很不错。三周后，一个规律浮现：模型在系统性地低批准来自非英语用户的交易，这种偏差与姓名模式相关，而非风险信号。在上线前没有人检查过分段层级的性能。这不是欺诈检测失败，而是阶段门控失败。

大多数团队原则上理解AI功能应该渐进式上线。但他们缺少的是一个具体的工程框架来定义"渐进"的实际含义：哪些指标解锁每个阶段、在升级之前需要哪些监控，以及什么触发自动回滚。没有这些，自主性升级就变成了组织层面的乐观主义行为，而非可重复的工程决策。

AI 模型的持续部署：你的回滚信号是错误的

2026年4月19日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的部署流水线是绿色的。延迟处于正常水平。错误率：0.02%。新的模型版本已成功发布——或者说你的仪表盘是这么显示的。

与此同时，你面向客户的 AI 正在微妙地以较低的精度总结文档，对以前能直接回答的问题含糊其辞，并不时地压平下游流水线所依赖的结构化输出。没有警报响起。没有触发值班呼叫。你收到的第一个信号是两周后的一张支持工单。

这就是 AI 部署中的隐性回归问题。传统的回滚信号——HTTP 错误、p99 延迟、异常率——是为确定性软件构建的。它们无法察觉行为漂移。随着团队更频繁地升级语言模型，“基础设施健康”与“AI 运行正确”之间的鸿沟成了回归问题的藏身之处。

没人讨论的端侧 LLM 问题：模型更新传播

2026年4月19日 · 阅读需 13 分钟

Tian Pan

Software Engineer

大多数构建端侧 LLM 功能的工程师，将时间花在解决那些显而易见的问题上：量化、延迟、内存限制。模型能装进手机，推理速度够快，演示效果也很好看。然后他们向数百万台设备发布，才发现一个更难的问题——从来没人提前告诉他们：你现在有数百万个独立的计算节点，运行着你 AI 模型的不同版本，而你根本没有可靠的方式知道任何一个用户运行的是哪个版本。

云端推理在最好的意义上是无聊的。你更新模型，重新部署服务器，几分钟内整个用户群就都在运行新版本了。端侧推理则彻底打破了这个假设。一个三个月前最后一次打开你应用的用户，仍在运行那时当前的模型——而且没有干净的方法强制更新，没有服务器端回滚，也没有简单的方法在没有你从一开始就构建的监控埋点的情况下检测到版本不匹配。

这种版本碎片化是端侧 AI 的核心运营挑战，其后果远不止缓慢的发布。它造成无声的能力漂移，使事故响应复杂化，并将你的"AI 功能"变成一个由独立运行的异构系统组成的庞大集群——你对其负责，却无法直接控制。

Prompt 金丝雀：你的 AI 团队缺失的部署原语

2026年4月17日 · 阅读需 11 分钟

Tian Pan

Software Engineer

2025 年 4 月，全球使用最广泛的 AI 产品之一更新了系统提示词。错误率保持平稳。延迟表现正常。部署仪表盘显示一切正常。然而在三天内，数百万用户发现了一些严重的问题：模型变得异常谄媚，附和错误的想法，验证糟糕的推理，并对用户说的任何话都表现出虚假的热情。回滚公告发布时，该事件已经席卷社交媒体，用户纷纷晒出截图作为证据。在一段时间内，Twitter 成了生产告警系统。

当你把提示词和模型的变更当作配置更新，而不是行为部署时，就会发生这种情况。那些在代码金丝雀基础设施上投入多年的团队，却仍在以单一原子级切换的方式发布 AI 变更——瞬间全球化、瞬间不可逆，没有分级发布，除了用户投诉外也没有自动回滚信号。

LLM 行为的金丝雀部署并非可有可无。它是缺失的基础设施层，区分了那些能在内部捕捉退化的团队，和那些只能通过支持工单发现问题的团队。

Prompt 金丝雀部署：像资深 SRE 一样发布 Prompt 变更

2026年4月16日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的团队在周二下午发布了一个提示词（prompt）修改。改动看起来很合理——你收紧了系统提示词，删除了冗余指令，并添加了更明确的语气指令。预发布环境（Staging）看起来没问题。你上线了。到周三早上，你的支持工单量翻了一番。在这次收紧过程中，你破坏了模型识别某类用户查询的能力，而这些查询以前是可以优雅处理的。你的 HTTP 错误率是 0%。你的仪表盘显示全绿。在人工查阅工单之前，这个问题是隐形的。

这是 LLM 生产系统的典型故障模式。提示词变更会静默失败。它们在产生垃圾内容的同时返回 200 OK。它们的性能下降方式是单元测试无法捕捉、错误率监控无法标记、仪表盘也无法体现的。解决方案不是在预发布环境进行更好的测试，而是将每一次提示词变更都视为一次生产部署，采用与关键代码发布相同的流量分片、回滚和监控纪律。

为什么渐进式发布对 AI 功能不起作用（以及该怎么做）

2026年4月15日 · 阅读需 11 分钟

Tian Pan

Software Engineer

灰度发布（Canary deployments）之所以有效，是因为 Bug 是二元的。代码要么崩溃，要么正常运行。你将 1% 的流量引导到新版本，观察 30 分钟的错误率和延迟，然后决定回滚或继续。系统会自动评分。一个糟糕的发布会大声宣告自己的存在。

AI 功能并非如此。一个开始生成微妙错误建议、过时推荐或听起来煞有介事的废话的语言模型，其 5xx 错误率为零。延迟保持在 SLO 范围内。灰度发布看起来是绿色的，而产品却在无声无息地辜负用户。

这不是工具问题。这是概念上的错位。渐进式发布背后的整个思维模型——确定性代码、自我评分系统、二元通过/失败——在你引入一个其正确性无法通过观察请求本身来衡量的组件时，就会崩溃。

运营模型卡：实验室不发布的部署文档

2026年4月15日 · 阅读需 12 分钟

Tian Pan

Software Engineer

模型卡会告诉你模型是否经过了针对CBRN误用的红队测试，以及它对哪些人群服务不足。但它不会告诉你：在10,000个并发请求下的p95 TTFT、性能在上下文窗口80%处出现的断崖、复杂JSON模式的格式错误率，或者自模型卡发布以来模型行为漂移了多少。

这种差距是结构性的，而非偶然。模型卡设计于2019年，用于公平性和安全性文档，目标受众是公民社会组织和监管机构。构建生产系统的工程团队并不是其使用场景。七年的推广之后，这一框架依然未变——而将模型卡视为部署规范的代价从未如此高昂。

2025年基础模型透明度指数（斯坦福CRFM + 伯克利）证实了这一遗漏的范围：OpenAI在100项透明度指标中得24/100，Anthropic得32/100，Google得27/100。平均分从58分降至40分，这意味着随着模型能力增强，AI透明度不升反降。四大主要实验室均不披露训练数据构成、能源使用情况或与部署相关的性能特征。