跳到主要内容

3 篇博文 含有标签「observability」

查看所有标签

生产环境中的 LLM 可观测性:工程师容易忽略的四个隐性故障

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数将 LLM 应用推向生产环境的团队,其日志设置常被误认为是可观测性。他们在数据库中存储提示词(prompt)和响应,在表格中跟踪 token 数量,并在 Datadog 中设置延迟告警。然而,当用户反馈聊天机器人已经连续两天给出错误回答时,没人能告诉你原因 —— 因为收集到的数据都没有告诉你模型是否真的正确。

传统监控回答的是“系统是否在线且速度多快?”而 LLM 可观测性回答的是一个更难的问题:“系统是否在做它应该做的事情,以及它在什么时候停止了这种正常行为?”当你的系统行为是概率性的、依赖上下文的,并且经常以不触发任何告警的方式出错时,这种区别就显得至关重要。

生产环境中的自愈智能体:如何构建自我修复系统

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数智能体故障不会自行报告。没有崩溃,没有警报,没有堆栈跟踪。你的智能体只是默默地返回错误答案,跳过工具调用,或在任务中途停滞——而你直到三小时后用户投诉时才发现。从“在开发环境中正常运行”到“在生产环境中可靠”的差距,并非仅仅增加重试次数就能弥补。它关乎构建一个能够检测自身故障、对故障进行分类并在不半夜两点把你吵醒的情况下恢复的系统。

以下是自修复智能体管道在实践中的实际面貌。

生产环境中的 AI Agent 自主性度量:数据实际揭示了什么

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数构建 AI Agent 的团队花费数周时间进行部署前评估,却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时,跨越数千个真实会话之后才能浮现。不去衡量这些,等于盲目飞行。

一项针对数千次生产部署和软件工程会话的大规模研究,揭示了一些真正令人意想不到的发现。呈现出来的图景,与大多数构建者的预期大相径庭。