跳到主要内容

2 篇博文 含有标签「llmops」

查看所有标签

生产环境 AI 故障响应:当你的智能体在凌晨 3 点出错时

· 阅读需 13 分钟
Tian Pan
Software Engineer

一家金融科技创业公司的多智能体成本追踪系统在没人察觉的情况下运行了 11 天。原因是:智能体 A 向智能体 B 寻求澄清,智能体 B 向智能体 A 寻求帮助以解释回复。两者都没有打破循环的逻辑。在人类查看发票之前,每周 127 美元的账单变成了 47,000 美元。

没有抛出错误,没有触发告警,延迟也正常。系统正完全按照设计运行——只是在永远运行下去。

这就是 AI 事故真实的样子。它们不是堆栈跟踪和 500 错误。它们是无声的行为失效、失控的循环,以及在生产规模下以十足信心交付的似是而非的错误答案。你现有的故障响应手册几乎肯定没有涵盖其中的任何一种。

提示词所有权问题:当所有团队都将提示词视为配置时会发生什么

· 阅读需 10 分钟
Tian Pan
Software Engineer

对系统提示词(system prompt)的一个单词修改在生产环境中运行了 21 天,期间没有人发现它误分类了数千份抵押贷款文件。估算的损失:340,000 美元的操作效率低下和 SLA 违约成本。没有人能说出是谁做的改动,什么时候改的,或者为什么要改。提示词存放在一个环境变量中,有三个团队拥有写入权限,而且没有人认为自己有责任对其进行审核。

这就是提示词所有权(prompt ownership)问题。随着 LLM 驱动的功能在企业中激增,提示词已成为技术栈中影响最深远、但治理最薄弱的资产。它们控制模型行为、塑造用户体验、执行安全约束并定义业务逻辑——然而,大多数团队管理提示词的严谨程度甚至不如修改一次 CSS。