数据库连接池:AI 流水线中被忽视的性能瓶颈
· 阅读需 10 分钟
你的 AI 功能上线了。在预发环境中,响应时间看起来还不错。一周后,生产环境开始出现神秘的 p99 尖峰——在中等负载下,延迟从 800ms 飙升至 8 秒,而 GPU 压力正常,模型没有报错,也找不到明显原因。你扩容了更多副本,没有改善。你对模型服务做了性能剖析,没有问题。你加了缓存,还是没用。
最终,有人查了数据库连接池的等待时间。从第三天起,它的利用率就已经高达 95%。
这是 AI 生产事故中最常见的一类,却鲜有人谈及——因为连接池耗尽的表现很像模型变慢。症状出现在错误的层级:你看到的是 LLM 调用延迟高,而不是数据库查询慢,所以定位问题往往需要数天,而用户一直在忍受降级的响应。
根本原因在于:AI 工作负载打破了传统连接池容量规划所有的内在假设。为 OLTP Web 流量设计的连接池,在加入 LLM 生成、检索和 Agent 状态持久化之后就会以难以监测、难以预判的方式崩溃。
