LLM 生产环境可观测性:追踪那些你无法预测的行为
· 阅读需 12 分钟
你的监控堆栈会告诉你关于请求率、CPU 和数据库延迟的一切。但它几乎无法告诉你,你的 LLM 是否刚刚幻觉出了一个退款政策,为什么一个面向客户的智能体(Agent)循环调用了三次工具才回答了一个简单的问题,或者你产品中的哪个功能正在每天悄无声息地烧掉价值 800 美元的 Token。
传统的可观测性是围绕确定性系统构建的。LLM 在结构上完全不同 —— 同样的输入,每次的输出都可能不同。它的失败模式不是 500 错误或超时;而是一个听起来很有道理、非常自信但恰好错误的回答。成本不再是稳定且可预测的;当一个配置错误的 Prompt 遇到流量高峰时,成本会激增。调试也不再是“在堆栈跟踪中查找异常”;而是“重构为什么智能体在周二凌晨 2 点选择了这个工具路径”。
这就是 LLM 可观测性要解决的问题 —— 并且在过去的 18 个月里,这一领域已经显著成熟。
