跳到主要内容

3 篇博文含有标签「change-management」

查看所有标签

故障复盘：根本原因竟是一个无人负责的提示词

2026年5月18日 · 阅读需 10 分钟

Software Engineer

故障复盘进行得非常顺利，直到遇到了一个没人能回答的问题。下午 2:14，结构化输出错误激增，某个收入工作流停滞了 90 分钟。时间线还原得很清晰：三周前，有人修改了系统提示词（system prompt），多加了几个关于“对话语气”的词，这在特定输入下悄悄导致模型偏离了 JSON 契约。修复方法很简单，只需一行代码回滚。但接下来的部分很难：有人问是谁做的改动，谁审核的，以及未来哪个团队负责维护这个提示词。房间里陷入了沉默。没有 Pull Request，没有审核人。改动是某个人在晚上 11 点通过厂商控制面板操作的，而那个人已经不记得这回事了。

那种沉默才是真正的事故。JSON 契约的失效只是症状。根因在于，系统中杠杆率最高的一处行为逻辑，竟然没有负责人，没有变更历史，也没有走任何管理其他生产环境变更的流程。模型没有出错。模型完全按照指令行事。失败之处在于，“指令”本身完全脱离了变更管理。

这是目前最常见的生产环境 AI 事故之一，而且几乎从未被正确命名。复盘报告在根因栏写下“提示词退化（prompt regression）”然后就此揭过。但“提示词退化”描述的是代码表现。真正的根因是组织架构图上的一个漏洞。

组织的免疫系统：为什么公司会扼杀那些确实奏效的 AI 功能

2026年5月7日 · 阅读需 11 分钟

Software Engineer

你的 AI 功能运行良好。它通过了你构建的每一项基准测试（benchmark）。它处理了团队花费数周进行压力测试的边缘案例。试点（pilot）用户非常喜欢它。你的模型没有产生幻觉。延迟低于 300ms。评估套件（eval suite）显示全部通过。

然而六个月过去了，它仍未投入生产。法务部门要求再进行三轮审查。一位高级副总裁担心“范围（scope）”问题。拥有相邻工作流所有权的团队表示未被征求意见。财务部门说投资回报率（ROI）模型需要重构。你被告知要“进行更广泛的内部沟通（socialize it more broadly）”。

这就是所谓的组织免疫系统在起作用——它杀死的 AI 项目比糟糕的模型要多得多。

生产级 AI 系统中的提示词版本控制与变更管理

2026年3月13日 · 阅读需 11 分钟

Software Engineer

一个团队在客服提示词中增加了三个词，为了让它“更具对话感”。几小时内，结构化输出错误率激增，一条创收流水线停滞。工程师们花了将近一整天的时间调试基础设施和代码，才有人想到去检查提示词。没有版本历史。没有回滚机制。这三个词的修改是由一位产品经理直接在配置文件中内联完成的，他完全没理由认为这会有风险。

这是一个典型的生产环境提示词事故。类似的戏码在各种规模的公司中上演，其根源几乎总是一样的：提示词被视作临时配置，而不是软件。