跳到主要内容

2 篇博文 含有标签「ai-observability」

查看所有标签

AI 可观测性泄露:你的追踪堆栈正成为数据外泄的出口

· 阅读需 13 分钟
Tian Pan
Software Engineer

我最近接触的一个安全团队发现,他们的 prompt(提示词)和 response(响应)字段被完整地发送到了一个第三方 SaaS 日志后端,而他们从未与该厂商签署过《数据处理协议》(DPA)。这些字段包含客户的医疗摘要、支持人员误粘贴的 Stripe 私钥,以及某人要求内部助手总结的机密收购备忘录全文。Payload 中没有任何内容经过加密,也没有进行任何脱敏处理。数据保留期长达 400 天。这一集成是由一位初衷良好的工程师在黑客松期间通过 pip install 厂商的 SDK、填入 API 密钥后直接上线的。

这就是 AI 观测性泄露。每个 LLM 应用团队最终都会需要追踪(tracing)——没有它,你无法调试提示词回归或非确定性的智能体(agent)循环——因此 LangSmith、Langfuse、Helicone、Phoenix、Braintrust 或厂商提供的 AI 插件最终都会进入技术栈。默认设置会捕获整个请求和响应。对于大多数生产工作负载来说,这种默认设置就是一个等待被发现的合规性违规隐患。

调试税:为什么调试 AI 系统比构建它们要多花 10 倍的时间

· 阅读需 13 分钟
Tian Pan
Software Engineer

构建一个 LLM 功能需要几天时间。在生产环境中对其进行调试则需要数周。这种不对称性——即“调试税”(debug tax)——是 2026 年 AI 工程的核心成本结构,大多数团队直到深陷其中时才意识到这一点。

2025 年的一项 METR 研究发现,使用 LLM 辅助编码工具的资深开发人员实际上效率降低了 19%,尽管他们感知到的速度提升了 20%。这种感知效率与实际效率之间的差距是更广泛问题的一个缩影:AI 系统之所以让人感觉构建速度很快,是因为最困难的部分——在生产环境中调试概率性行为——还没有开始。

调试税并非能力问题。它是构建在概率推理之上的系统的结构性属性。传统软件的失败表现为堆栈跟踪(stack traces)、错误代码和确定的重现路径。基于 LLM 的系统则表现为似是而非但错误的答案、间歇性的质量下降,以及无法重现的故障,因为相同的输入在连续运行中会产生不同的输出。调试这些系统需要根本不同的方法论、工具和心智模型。