生产环境中的实时网络接地:调用搜索 API 只是开始
· 阅读需 11 分钟
大多数工程师发现实时网络接地局限性的方式如出一辙:花一个下午接入搜索 API,推上生产,然后接下来三周都在解释为什么延迟高达六秒、近期事件的回答出错,以及用户偶尔被引导到假冒电话号码。
根本假设——搜索增强型 LLM 不过是"带新鲜数据的普通 RAG"——是大多数痛苦的来源。实时网络接地与静态检索几乎没有共同之处,除了"检索"这个词。它是一个披着 NLP 外衣的分布式系统问题。
没人提前做的延迟计算
静态 RAG 有明确的性能特征:嵌入查询、扫描向量索引、返回文档块。端到端通常为 LLM 响应增加 200–500ms。
实时网络接地的流水线有五个独立阶段,每个阶段都有自己的延迟:
- 搜索 API 调用:500ms–5.5s,取决于提供商和查询类型
