当你的 AI 功能过时：生产环境中的知识切断与时间溯源

2026年4月19日 · 阅读需 12 分钟

Software Engineer

你的 AI 功能在第三季度上线了。评估结果看起来不错。用户很满意。六个月后，满意度评分下降了 18 分，但你的仪表盘依然显示 99.9% 的可用性和低于 200 毫秒的延迟。没有任何地方看起来坏了。从传统意义上讲，也没有任何地方真的坏了。模型在响应，基础设施很健康。只是这个功能在悄无声息地出错。

这就是生产环境 AI 系统中“时间衰减”（temporal decay）的样子。它不会通过报错来提醒你。它以模型所知与现实世界现状之间的差距形式不断累积——等到你的支持队列反映出这一点时，损害已经持续数月之久。

知识截止并非单一的时间点

“知识截止”（knowledge cutoff）这个词暗示了一个清晰的界限：模型知道日期 X 之前的一切，而对之后的事情一无所知。现实情况则更加复杂，也更加危险。

训练语料库是异质的。一个模型的有效知识边界取决于你询问的是哪个子领域。对主要前沿模型的研究发现，即使在同一个模型内部，不同子资源（sub-resource）的有效截止日期也有显著差异。一个标榜知识截止到 2024 年 12 月的模型，在通用新闻方面可能确实能达到 2024 年，但在你特定的监管领域，有效截止日期可能仅为 2022 年，因为该领域的内容在训练数据中代表性不足。

这意味着你在营销文案中看到的截止日期，并非你的功能实际在使用的截止日期。寻找真实边界的方法是经验主义的：构建一套与特定日期挂钩的已知答案的小型探测问题集，在部署时运行，并测量准确率下降的位置。供应商不会告诉你这些，但你的用户最终会告诉你。

除了初始的截止日期，还有一个更缓慢的次生问题：时间对齐（temporal grounding）。对多代大语言模型（LLM）的研究发现，与绝对日期查询相比，日期相对查询（date-relative queries）的准确率下降了 23–35%。当用户询问“HIPAA 合规性最近有什么变化？”时，模型必须推理出什么算作“最近”，将其锚定在它对当前日期的理解上，并据此检索信息。这三个步骤都是潜在的失败点。模型会系统性地错估相对时间参考，因为它们对“现在”的训练信号是被冻结的。

为什么这会悄无声息地失败

传统监控对时间衰减是盲目的，因为它测量的是系统行为，而非回答质量。你的 APM 仪表盘关注的是错误率、延迟百分位数和 Token 吞吐量。当你的模型对截止日期三个月后发生的调价给出陈旧回答时，这些指标都不会发生波动。

生产事故的失败模式是一致的：系统显示 99% 的可用性，同时提供错误的信息，唯一的信号是用户信任的逐渐瓦解。一家家电制造商的 AI 客服机器人（运行在不了解更新后的维修流程的模型上）将多套指令集组合成了语无伦次的指导。系统在每个可观察的指标上都显得很健康，但用户就是无法按照维修步骤操作。

这正是时间衰减比大多数生产故障更危险的地方：它是一个语义问题，而非运维问题。你现有的告警基础设施是围绕运维异常构建的。

有三类问题在没有新鲜度处理的情况下，不应直接路由给原生 LLM：

政策与合规性问题：税法、监管要求、许可条款——这些都有明确的日期，且实质内容变动频繁。
现状问题：市场价格、产品可用性、公司信息、人事变动。
相对时间问题：没有明确日期锚点的“最近”、“当前”、“最新”、“新”。

如果你的功能预期用途包含其中任何一类，你就面临时间对齐风险。

检测由截止日期引起的故障

检测需要你在现有的运维指标之外增加质量评估。以下三种方法在不同的成本点上都行之有效。

探测查询 (Probe queries)。创建一小组具有可验证答案的日期锚定问题：即在模型截止日期之后发生的变化。将这些作为“金丝雀”（canary）与常规流量并行运行，并跟踪准确率随时间的变化。随着世界与截止日期的偏离越来越远，金丝雀的准确率应呈预测模式下降。剧烈下降可能预示着特定领域的时效性已实质性恶化。

时间异常检测。在你的应用程序中增加监测，以检测用户查询何时包含时间性词汇（如“当前”、“最近”、“截至今天”），并标记这些请求进行质量抽样。询问时间相对问题的用户是受截止日期失效影响风险最高的人群。对一定比例的此类请求进行人工或自动化审核，并跟踪正确回答与陈旧回答随时间变化的比例。

检索管道中的新鲜度评分。如果你正在使用 RAG，你的检索层应在相关性分数之外输出新鲜度元数据。对于询问“当前最佳实践”的查询，8 个月前更新的文档与询问基础概念的查询相比，应具有不同的权重。在检索时进行陈旧度评分（计算更新后的天数除以该文档类型可接受的更新频率），为你提供了一个具体的告警指标。当检索到的文档平均陈旧度超过阈值时，就是一个值得叫醒相关人员处理的信号。

LLMLagBench 的研究方法为生产抽样提供了一个系统的补充：通过从新闻档案中构建密集的时间探测集，你可以精确识别模型性能发生拐点的位置——不仅是官方的截止日期，还有每个领域实际的有效边界。

RAG 无法自动解决这个问题

团队通常将 RAG 视为显而易见的解决方案：如果模型的知识是静态的，就增加检索功能，使其能够访问新鲜信息。这种直觉是正确的，但 RAG 引入了其特有的时间性故障模式，而大多数实现都忽略了这一点。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

当你的 AI 功能过时：生产环境中的知识切断与时间溯源

知识截止并非单一的时间点

为什么这会悄无声息地失败

检测由截止日期引起的故障

RAG 无法自动解决这个问题

Recommended Reading

关于 Tian Pan

知识截止并非单一的时间点​

为什么这会悄无声息地失败​

检测由截止日期引起的故障​

RAG 无法自动解决这个问题​

Recommended Reading

关于 Tian Pan

知识截止并非单一的时间点

为什么这会悄无声息地失败

检测由截止日期引起的故障

RAG 无法自动解决这个问题