当你的 AI 功能过时:生产环境中的知识切断与时间溯源
你的 AI 功能在第三季度上线了。评估结果看起来不错。用户很满意。六个月后,满意度评分下降了 18 分,但你的仪表盘依然显示 99.9% 的可用性和低于 200 毫秒的延迟。没有任何地方看起来坏了。从传统意义上讲,也没有任何地方真的坏了。模型在响应,基础设施很健康。只是这个功能在悄无声息地出错。
这就是生产环境 AI 系统中“时间衰减”(temporal decay)的样子。它不会通过报错来提醒你。它以模型所知与现实世界现状之间的差距形式不断累积——等到你的支持队列反映出这一点时,损害已经持续数月之久。
知识截止并非单一的时间点
“知识截止”(knowledge cutoff)这个词暗示了一个清晰的界限:模型知道日期 X 之前的一切,而对之后的事情一无所知。现实情况则更加 复杂,也更加危险。
训练语料库是异质的。一个模型的有效知识边界取决于你询问的是哪个子领域。对主要前沿模型的研究发现,即使在同一个模型内部,不同子资源(sub-resource)的有效截止日期也有显著差异。一个标榜知识截止到 2024 年 12 月的模型,在通用新闻方面可能确实能达到 2024 年,但在你特定的监管领域,有效截止日期可能仅为 2022 年,因为该领域的内容在训练数据中代表性不足。
这意味着你在营销文案中看到的截止日期,并非你的功能实际在使用的截止日期。寻找真实边界的方法是经验主义的:构建一套与特定日期挂钩的已知答案的小型探测问题集,在部署时运行,并测量准确率下降的位置。供应商不会告诉你这些,但你的用户最终会告诉你。
除了初始的截止日期,还有一个更缓慢的次生问题:时间对齐(temporal grounding)。对多代大语言模型(LLM)的研究发现,与绝对日期查询相比,日期相对查询(date-relative queries)的准确率下降了 23–35%。当用户询问“HIPAA 合规性最近有什么变化?”时,模型必须推理出什么算作“最近”,将其锚定在它对当前日期的理解上,并据此检索信息。这三个步骤都是潜在的失败点。模型会系统性地错估相对时间参考,因为它们对“现在”的训练信号是被冻结的。
为什么这会悄无声息地失败
传统监控对时间衰减是盲目的,因为它测量的是系统行为,而非回答质量。你的 APM 仪表盘关注的是错误率、延迟百分位数和 Token 吞吐量。当你的模型对截止日期三个月后发生的调价给出陈旧回答时,这些指标都不会发生波动。
生产事故的失败模式是一致的:系统显示 99% 的可用性,同时提供错误的信息,唯一的信号是用户信任的逐渐瓦解。一家家电制造商的 AI 客服机器人(运行在不了解更新后的维修流程的模型上)将多套指令集组合成了语无伦次的指导。系统在每个可观察的指标上都显得很健康,但用户就是无法按照维修步骤操作。
这正是时间衰减比大多数生产故障更危险的地方:它是一个语义问题,而非运维问题。你现有的告警基础设施是围绕运维异常构建的。
有三类问题在没有新鲜度处理的情况下,不应直接路由给原生 LLM:
- 政策与合规性问题:税法、监管要求、许可条款——这些都有明确的日期,且实质内容变动频繁。
- 现状问题:市场价格、产品可用性、公司信息、人事变动。
- 相对时间问题:没有明确日期锚点的“最近”、“当前”、“最新”、“新”。
如果你的功能预期用途包含其中任何一类,你就面临时间对齐风险。
检测由截止日期引起的故障
检测需要你在现有的运维指标之外增加质量评估。以下三种方法在不同的成本点上都行之有效。
探测查询 (Probe queries)。创建一小组具有可验证答案的日期锚定问题:即在模型截止日期之后发生的变化。将这些作为“金丝雀”(canary)与常规流量并行运行,并跟踪准确率随时间的变化。随着世界与截止日期的偏离越来越远,金丝雀的准确率应呈预测模式下降。剧烈下降可能预示着特定领域的时效性已实质性恶化。
时间异常检测。在你的应用程序中增加监测,以检测用户查询何时包含时间性词汇(如“当前”、“最近”、“截至今天”),并标记这些请求进行质量抽样。询问时间相对问题的用户是受截止日期失效影响风险最高的人群。对一定比例的此类请求进行人工或自动化审核,并跟踪正确回答与陈旧回答随时间变化的比例。
检索管道中的新鲜度评分。如果你正在使用 RAG,你的检索层应在相关性分数之外输出新鲜度元数据。对于询问“当前最佳实践”的查询,8 个月前更新的文档与询问基础概念的查询相比,应具有不同的权重。在检索时进行陈旧度评分(计算更新后的天数除以该文档类型可接受的更新频率),为你提供了一个具体的告警指标。当检索到的文档平均陈旧度超过阈值时,就是一个值得叫醒相关人员处理的信号。
LLMLagBench 的研究方法为生产抽样提供了一个系统的补充:通过从新闻档案中构建密集的时间探测集,你可以精确识别模型性能发生拐点的位置——不仅是官方的截止日期,还有每个领域实际的有效边界。
RAG 无法自动解决这个问题
团队通常将 RAG 视为显而易见的解决方案:如果模型的知识是静态的,就增加检索功能,使其能够访问新鲜信息。这种直觉是正确的,但 RAG 引入了其特有的时间性故障模式,而大多数实现都忽略了这一点。
- https://arxiv.org/html/2403.12958v1
- https://arxiv.org/html/2601.13717v1
- https://arxiv.org/html/2510.02340
- https://arxiv.org/html/2511.12116
- https://arxiv.org/html/2509.19376
- https://atlan.com/know/llm-knowledge-base-freshness-scoring/
- https://glenrhodes.com/data-freshness-rot-as-the-silent-failure-mode-in-production-rag-systems-and-treating-document-shelf-life-as-a-first-class-reliability-concern-3/
- https://www.traceloop.com/blog/catching-silent-llm-degradation-how-an-llm-reliability-platform-addresses-model-and-data-drift
- https://aclanthology.org/2024.naacl-long.391.pdf
- https://www.techtarget.com/searchcio/feature/AI-failure-examples-What-real-world-breakdowns-teach-CIOs
