2 篇博文含有标签「ai-observability」

AI 可观测性泄露：你的追踪堆栈正成为数据外泄的出口

2026年4月23日 · 阅读需 13 分钟

Software Engineer

我最近接触的一个安全团队发现，他们的 prompt（提示词）和 response（响应）字段被完整地发送到了一个第三方 SaaS 日志后端，而他们从未与该厂商签署过《数据处理协议》（DPA）。这些字段包含客户的医疗摘要、支持人员误粘贴的 Stripe 私钥，以及某人要求内部助手总结的机密收购备忘录全文。Payload 中没有任何内容经过加密，也没有进行任何脱敏处理。数据保留期长达 400 天。这一集成是由一位初衷良好的工程师在黑客松期间通过 pip install 厂商的 SDK、填入 API 密钥后直接上线的。

这就是 AI 观测性泄露。每个 LLM 应用团队最终都会需要追踪（tracing）——没有它，你无法调试提示词回归或非确定性的智能体（agent）循环——因此 LangSmith、Langfuse、Helicone、Phoenix、Braintrust 或厂商提供的 AI 插件最终都会进入技术栈。默认设置会捕获整个请求和响应。对于大多数生产工作负载来说，这种默认设置就是一个等待被发现的合规性违规隐患。

调试税：为什么调试 AI 系统比构建它们要多花 10 倍的时间

2026年4月10日 · 阅读需 13 分钟

Tian Pan

Software Engineer

构建一个 LLM 功能需要几天时间。在生产环境中对其进行调试则需要数周。这种不对称性——即“调试税”（debug tax）——是 2026 年 AI 工程的核心成本结构，大多数团队直到深陷其中时才意识到这一点。

2025 年的一项 METR 研究发现，使用 LLM 辅助编码工具的资深开发人员实际上效率降低了 19%，尽管他们感知到的速度提升了 20%。这种感知效率与实际效率之间的差距是更广泛问题的一个缩影：AI 系统之所以让人感觉构建速度很快，是因为最困难的部分——在生产环境中调试概率性行为——还没有开始。

调试税并非能力问题。它是构建在概率推理之上的系统的结构性属性。传统软件的失败表现为堆栈跟踪（stack traces）、错误代码和确定的重现路径。基于 LLM 的系统则表现为似是而非但错误的答案、间歇性的质量下降，以及无法重现的故障，因为相同的输入在连续运行中会产生不同的输出。调试这些系统需要根本不同的方法论、工具和心智模型。

关于 Tian Pan