知识截止期是 UX 界面，而非脚注

2026年4月27日 · 阅读需 14 分钟

Software Engineer

模型有知识截止日期。用户不知道它是什么。产品在几乎所有情况下都不会告诉用户。当用户问了一个正确答案在三个月前已经改变的问题时，助手会给出一个言之凿凿的错误答案——这并非因为模型失效了，而是因为产品从未提供一种方式来标记这种信息鸿沟。你与用户之间的信任契约是隐性的、不对称的，并且每当世界发生变化而你的 UX 假装没有变化时，这种契约就会被悄然打破。

主流模式是将截止日期视为一个注脚：一段埋藏在帮助中心里的披露文本、一个无人阅读的 /about 页面，或者在第一周就被关闭的一次性工具提示。这种定位是一个 bug。知识截止日期不像“上下文长度”那样是模型的一个属性。它是一个 UX 界面——经过工程化、设计和演进——将其视为次要因素，会导致交付的产品在用户无法审计的语调下，围绕自身的无知进行编造。

这篇文章探讨的就是这个界面：为什么显而易见的定位会失败、答案的实际来源是什么，以及在下一次训练数据刷新再次改变标准之前，一支严肃的团队必须建立的设计原则。

“截止日期”是戴着同一个名字面具的三种不同鸿沟

团队交付错误 UX 的第一个原因是，“知识截止日期”被用来指代三种除了名称外毫无共同点的陈旧性差距。

训练截止日期 (Training cutoff)。发布的日期——例如 GPT-5.2 和 Claude 4.6 Opus 的“2025 年 8 月”，Gemini 3 的“2025 年 1 月”——在这之后，参数权重不再更新。这是你的帮助中心注脚所引用的日期。它也是整个技术栈中在操作层面最没用的数字。
每个主题的有效截止日期 (Effective cutoff per topic)。最近的研究追踪了每个维基百科条目、每个编程语言版本、每个新闻领域的有效截止日期，并发现它通常比报告的日期早几个月或几年。预训练中使用的 CommonCrawl 转储在时间上是不匹配的：2019–2023 年 RedPajama 转储中超过 80% 的类维基百科文档早于 2023 年，尽管转储本身是最近的。模型只有在那些近期内容真正按比例进入训练组合的主题上才“了解 2025 年 8 月”。对于长尾主题，有效截止日期可能比报告的早一年——而且模型无法告诉你针对面前的问题，具体是哪种情况。
索引截止日期 (Index cutoff)。检索系统有它自己的时钟。如果你的摄取任务在每天午夜运行，那么下午 2 点的文档更新的滞后时间长达 22 小时。如果每周运行一次，则长达 168 小时。如果是年度营销内容刷新，那么你运行的是一个过时一年的系统，却在演示文稿中称之为“实时 RAG”。

这三种差距是叠加的。一个询问“当前的退款政策是什么”的用户，得到的答案是由参数化知识（其有效截止日期取决于退款政策在预训练中出现的频率）、检索到的切片（其新鲜度取决于上次摄取任务运行的时间）以及模型对两者的推理组合而成的——而 UI 将所有这些呈现为一个答案，使用相同的字体、颜色和相同的置信度水平。

第一个值得做的设计决策是停止在你的规范文档中将“知识截止日期”作为一个单一概念。每一层都需要自己的名称、自己的负责人以及在产品中自己的展示界面。

来源有三类，而 UI 将其混为一谈

在新鲜度差距之下是更深层次的混淆：LLM 回复中的每个主张都来自三种来源之一，而 UX 几乎总是以相同的方式呈现它们。

检索 (Retrieved)。一段文字从你的索引语料库中提取出来，并与用户的问题一起展示给模型。其来源是具体的：文档 id、最后更新日期、段落范围。这是你可以引用的部分。
参数化 (Parametric)。该主张来自模型的权重——在预训练或微调期间记忆的事实。没有可以引用的文档。其“新鲜度”是该主题有效截止日期的函数，而模型本身并不知晓这一点。
推断 (Inferred)。模型结合了检索到的片段和参数化先验知识，产生了一个两者都不存在的主张。有时这是正确的综合，有时则是披着引用外衣的幻觉。UI 对它的展示与前两者相同。

一项 2025 年关于引用和 LLM 信任的研究发现，当回复包含引用时，用户的信任度会显著提高——即使这些引用是随机的。只有当参与者真正点击进入并核查时，信任度才会下降。合理的解释是：大多数用户不会核查，引用的视觉存在正在承担引用本身并未真正赢得的工作。如果你的 UI 不分青红皂白地引用所有内容——包括由貌似相关的 URL 包装的参数化和推断主张——你就是为答案中最不值得信任的部分构建了一个信任放大器。

修复方法是结构性的，而非风格上的。渲染输出中的每个主张在被 UI 看到之前，都需要被标记其来源类别：检索到的需带有真实的来源和真实的时间戳，参数化的需带有诚实的“来自训练数据，上次刷新于 [报告的截止日期]”标签，推断出的需带有明确的“综合”标注。模型是循环中唯一在生成时知道哪个是哪个的组件。事后通过将字符串与检索到的片段进行反向匹配来恢复这些信息，仅在模型逐字复制的情况下有效，而这种情况本就不需要帮助。

“世界是否依旧”预检

某些意图具有模型可以察觉的时效性，而一个廉价的预检关口（pre-flight gate）能在充满自信的错误答案交付之前，拦截其中令人惊讶的高比例。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

知识截止期是 UX 界面，而非脚注

“截止日期”是戴着同一个名字面具的三种不同鸿沟

来源有三类，而 UI 将其混为一谈

“世界是否依旧”预检

Recommended Reading

关于 Tian Pan

“截止日期”是戴着同一个名字面具的三种不同鸿沟​

来源有三类，而 UI 将其混为一谈​

“世界是否依旧”预检​

Recommended Reading

关于 Tian Pan

“截止日期”是戴着同一个名字面具的三种不同鸿沟

来源有三类，而 UI 将其混为一谈

“世界是否依旧”预检