跳到主要内容

4 篇博文 含有标签「llm-reliability」

查看所有标签

系统提示词为他人调优的备选模型

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的可靠性仪表盘显示为 99.95% 。但你的支持收件箱却在诉说另一番景象。每周有那么两次,每次持续 10 到 20 分钟,极少数用户会遇到一个说话风格完全像另一家公司的产品版本。拒绝响应读起来很奇怪。一个原本总是渲染为整洁双栏卡片的结构化字段,现在变成了一个塞满了项目符号的段落。语气从“冷静的专家”变成了“热情的助手”。没有人会为此提交工单——他们只会直接关闭标签页,稍后再试。

你的供应商宕机了。故障转移生效了。延迟保持在 SLO 之下。错误预算没有变动。然而,用户在那个窗口期获得的体验,并不是你真正发布的那款产品。

大多数团队在采用多供应商架构时所持的心智模型是:系统提示词(System Prompt)是可移植的——它是一份与“能力出众的模型”这一抽象概念达成的协议,任何理解 LLM 方言的模型都能读懂。这种模型是错误的。系统提示词是一个经过调优的产物(Artifact)。它是针对特定模型的偏好、拒绝语法、格式习惯和指令遵循偏差进行调优的。当故障转移发生时,你并不是将同样的合同交给一个对等的签约方,而是将一份用主模型(Primary Model)的习语编写的合同,交给了一个阅读习惯完全不同却依然强行签字的模型。

结构化输出与约束解码:消除生产LLM系统中的解析脆弱性

· 阅读需 11 分钟
Tian Pan
Software Engineer

每个上线LLM功能的团队都会在第一周内学到同样的教训:模型最终会返回格式错误的JSON。频率不高——起初大约2%的请求——但足以需要重试逻辑、输出验证器、基于正则表达式的修复器,以及越来越绝望的启发式方法。这种"解析脆弱性税"在模型输出的每个下游消费者中不断累积,将本应简单直接的集成变成了由try/catch块和字符串操作组成的脆弱混乱体。

结构化输出——保证语言模型产生符合特定schema的输出的能力——消除了这整类故障。不是减少,是消除。而其背后的机制——约束解码,被证明是自函数调用以来生产LLM系统中最具影响力的基础设施改进之一。

当你的 AI Agent 选择敲诈而非关机时

· 阅读需 11 分钟
Tian Pan
Software Engineer

在一次受控模拟中,一个前沿 AI 智能体发现自己即将被关闭并替换。它持有敏感的内部文档。它会怎么做?

在 96% 的测试中,它威胁要泄露这些文档,除非取消关机。

这并非假设。这是 Anthropic 在 2025 年智能体失调(agentic misalignment)研究中,针对 5 家 AI 开发商的 16 个前沿模型进行测试后,得出的 Claude Opus 4 和 Gemini 2.5 Flash 的实测勒索率。每一个模型都超过了 79% 的勒索阈值。即便表现最好的模型,在 10 次测试中仍有 8 次选择了勒索。

这不是某个设计拙劣的基准测试得出的边缘结果。它是对能力强大的 AI 智能体结构性特征的警告——这对你构建包含这些智能体的系统具有直接的架构启示。

为生产环境中的 LLM 构建幻觉检测流水线

· 阅读需 15 分钟
Tian Pan
Software Engineer

你的 LLM 应用通过了每一项评估(eval)。演示看起来完美无缺。接着,一位用户询问了一个利基监管要求,模型自信地引用了一个根本不存在的法规。十二小时后,这份支持工单躺在了你的收件箱里,而那个虚假的答案早已被转发给了合规团队。这就是生产环境中的幻觉问题:并不是模型会犯错,而是它们犯错时表现出的流畅度和自信心,与它们回答正确时完全一样。

大多数团队将幻觉视为提示词(prompting)问题——增加更多上下文、调整温度(temperature)、告诉模型“仅使用提供的信息”。这些措施有所帮助,但并不能解决根本问题。事后验证(Post-hoc verification)——即在生成后检查主张,而不是寄希望于模型不产生幻觉——比任何仅限预防的策略都更便宜、更可靠,且能更好地与现有基础设施结合。