跳到主要内容

3 篇博文 含有标签「change-management」

查看所有标签

故障复盘:根本原因竟是一个无人负责的提示词

· 阅读需 10 分钟
Tian Pan
Software Engineer

故障复盘进行得非常顺利,直到遇到了一个没人能回答的问题。下午 2:14,结构化输出错误激增,某个收入工作流停滞了 90 分钟。时间线还原得很清晰:三周前,有人修改了系统提示词(system prompt),多加了几个关于“对话语气”的词,这在特定输入下悄悄导致模型偏离了 JSON 契约。修复方法很简单,只需一行代码回滚。但接下来的部分很难:有人问是谁做的改动,谁审核的,以及未来哪个团队负责维护这个提示词。房间里陷入了沉默。没有 Pull Request,没有审核人。改动是某个人在晚上 11 点通过厂商控制面板操作的,而那个人已经不记得这回事了。

那种沉默才是真正的事故。JSON 契约的失效只是症状。根因在于,系统中杠杆率最高的一处行为逻辑,竟然没有负责人,没有变更历史,也没有走任何管理其他生产环境变更的流程。模型没有出错。模型完全按照指令行事。失败之处在于,“指令”本身完全脱离了变更管理。

这是目前最常见的生产环境 AI 事故之一,而且几乎从未被正确命名。复盘报告在根因栏写下“提示词退化(prompt regression)”然后就此揭过。但“提示词退化”描述的是代码表现。真正的根因是组织架构图上的一个漏洞。

组织的免疫系统:为什么公司会扼杀那些确实奏效的 AI 功能

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的 AI 功能运行良好。它通过了你构建的每一项基准测试(benchmark)。它处理了团队花费数周进行压力测试的边缘案例。试点(pilot)用户非常喜欢它。你的模型没有产生幻觉。延迟低于 300ms。评估套件(eval suite)显示全部通过。

然而六个月过去了,它仍未投入生产。法务部门要求再进行三轮审查。一位高级副总裁担心“范围(scope)”问题。拥有相邻工作流所有权的团队表示未被征求意见。财务部门说投资回报率(ROI)模型需要重构。你被告知要“进行更广泛的内部沟通(socialize it more broadly)”。

这就是所谓的组织免疫系统在起作用——它杀死的 AI 项目比糟糕的模型要多得多。

生产级 AI 系统中的提示词版本控制与变更管理

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个团队在客服提示词中增加了三个词,为了让它“更具对话感”。几小时内,结构化输出错误率激增,一条创收流水线停滞。工程师们花了将近一整天的时间调试基础设施和代码,才有人想到去检查提示词。没有版本历史。没有回滚机制。这三个词的修改是由一位产品经理直接在配置文件中内联完成的,他完全没理由认为这会有风险。

这是一个典型的生产环境提示词事故。类似的戏码在各种规模的公司中上演,其根源几乎总是一样的:提示词被视作临时配置,而不是软件。