你的 AI 产品在需要另一个模型之前,更需要一名 SRE
我在陷入困境的 AI 团队中看到的最显著模式,是他们复杂的模型栈与原始的运营水平之间的差距。一个团队可能在生产环境中运行三个前沿模型,背后是自定义路由逻辑、包含八个检索阶段的 RAG 流水线,以及一个调用二十个工具的智能体。但与此同时,他们没有轮值制度、没有 SLO、没有运行手册,甚至只有一个 #incidents Slack 频道,在那里的提示词是由当时刚好醒着的某个人进行实时热修复。该产品运行在 2026 年的模型基础设施和 2012 年的运维基础设施之上,而这种差距每周都会导致另一次故障。
当问题出现时,本能反应是去拨动模型杠杆。质量下降了?试试新版本。延迟激增了?换个供应商。生产环境中出现幻觉?再加一个护栏提示词。这些都无法解决根本问题,即没有人将系统的可靠性作为一种专业规范来负责。这些团队真正需要的——通常在他们需要另一位应用科学家之前——是他们的第一位 SRE。
“交付更好的提示词” 循环是对生产环境的信任盲跳
AI 产品团队往往围绕生成表层进行组织:提示词、评估、检索质量、工具架构。这些工作是合理的,但这些工作也让每一次生产事故都显得像是头一遭。上周四的一个提示词更改,突然变成了周一延迟退化的首要解释。没有人确定,因为没有人记录。没有人记录,是因为修改提示词的团队不是负责事故响应的团队,甚至根本没有事故响应团队。
在大规模 LLMOps 调查中,最一致的发现之一是:提示词漂移(即未受监控的小微编辑累积)是生产退化最常见的单一来源,其影响甚至超过了模型故障和基础设施问题。这纯粹是一个运营上的失败。提示词本身不是问题。问题在于提示词被当作代码对待,却没有遵守代码的纪律:没有评审、没有回滚、没有变更日志、没有与遥测系统挂钩。传统的软件团队会认为这是一个明显的系统缺失。而 AI 团队通常将其视为一种特性:“我们可以快速迭代”。
他们可以快速迭代,直到出事为止。当第一个客户投诉一个没人能复现的行为时,团队会发现他们无法将提示词编辑、部署和面向用户的退化关联起来。每一次事故都变成了一场长达数小时的考古挖掘。
