1 篇博文含有标签「integration-testing」

测试不可测之物：LLM 驱动 API 的集成契约

2026年4月17日 · 阅读需 11 分钟

Software Engineer

你的测试套件通过了。CI 是绿色的。你发布了新的 prompt。三天后，一个用户反馈你的 API 正在返回带有尾随逗号的 JSON——而你的下游解析器已经静默丢弃数据长达 72 小时。你从没为此写过测试，因为 LLM 在开发环境中"总是"返回合法的 JSON。

这就是毁掉 LLM 驱动产品的失败模式：不是灾难性的模型崩溃，而是确定性测试套件在结构上无法捕获的安静、间歇性的降级。根本原因不是懒惰——而是当你的系统产生非确定性的自然语言时，"期望 == 实际"的整个范式就失效了。

修复这个问题需要重新思考你在测试什么，以及对于 LLM 驱动的 API 而言"通过"究竟意味着什么。那些弄明白这一点的工程师并没有编写更聪明的相等性断言——他们编写的是根本上不同类型的测试。