跳到主要内容

知识截止期是 UX 界面,而非脚注

· 阅读需 14 分钟
Tian Pan
Software Engineer

模型有知识截止日期。用户不知道它是什么。产品在几乎所有情况下都不会告诉用户。当用户问了一个正确答案在三个月前已经改变的问题时,助手会给出一个言之凿凿的错误答案——这并非因为模型失效了,而是因为产品从未提供一种方式来标记这种信息鸿沟。你与用户之间的信任契约是隐性的、不对称的,并且每当世界发生变化而你的 UX 假装没有变化时,这种契约就会被悄然打破。

主流模式是将截止日期视为一个注脚:一段埋藏在帮助中心里的披露文本、一个无人阅读的 /about 页面,或者在第一周就被关闭的一次性工具提示。这种定位是一个 bug。知识截止日期不像“上下文长度”那样是模型的一个属性。它是一个 UX 界面——经过工程化、设计和演进——将其视为次要因素,会导致交付的产品在用户无法审计的语调下,围绕自身的无知进行编造。

这篇文章探讨的就是这个界面:为什么显而易见的定位会失败、答案的实际来源是什么,以及在下一次训练数据刷新再次改变标准之前,一支严肃的团队必须建立的设计原则。

“截止日期”是戴着同一个名字面具的三种不同鸿沟

团队交付错误 UX 的第一个原因是,“知识截止日期”被用来指代三种除了名称外毫无共同点的陈旧性差距。

  • 训练截止日期 (Training cutoff)。发布的日期——例如 GPT-5.2 和 Claude 4.6 Opus 的“2025 年 8 月”,Gemini 3 的“2025 年 1 月”——在这之后,参数权重不再更新。这是你的帮助中心注脚所引用的日期。它也是整个技术栈中在操作层面最没用的数字。
  • 每个主题的有效截止日期 (Effective cutoff per topic)。最近的研究追踪了每个维基百科条目、每个编程语言版本、每个新闻领域的有效截止日期,并发现它通常比报告的日期早几个月或几年。预训练中使用的 CommonCrawl 转储在时间上是不匹配的:2019–2023 年 RedPajama 转储中超过 80% 的类维基百科文档早于 2023 年,尽管转储本身是最近的。模型只有在那些近期内容真正按比例进入训练组合的主题上才“了解 2025 年 8 月”。对于长尾主题,有效截止日期可能比报告的早一年——而且模型无法告诉你针对面前的问题,具体是哪种情况。
  • 索引截止日期 (Index cutoff)。检索系统有它自己的时钟。如果你的摄取任务在每天午夜运行,那么下午 2 点的文档更新的滞后时间长达 22 小时。如果每周运行一次,则长达 168 小时。如果是年度营销内容刷新,那么你运行的是一个过时一年的系统,却在演示文稿中称之为“实时 RAG”。

这三种差距是叠加的。一个询问“当前的退款政策是什么”的用户,得到的答案是由参数化知识(其有效截止日期取决于退款政策在预训练中出现的频率)、检索到的切片(其新鲜度取决于上次摄取任务运行的时间)以及模型对两者的推理组合而成的——而 UI 将所有这些呈现为一个答案,使用相同的字体、颜色和相同的置信度水平。

第一个值得做的设计决策是停止在你的规范文档中将“知识截止日期”作为一个单一概念。每一层都需要自己的名称、自己的负责人以及在产品中自己的展示界面。

来源有三类,而 UI 将其混为一谈

在新鲜度差距之下是更深层次的混淆:LLM 回复中的每个主张都来自三种来源之一,而 UX 几乎总是以相同的方式呈现它们。

  • 检索 (Retrieved)。一段文字从你的索引语料库中提取出来,并与用户的问题一起展示给模型。其来源是具体的:文档 id、最后更新日期、段落范围。这是你可以引用的部分。
  • 参数化 (Parametric)。该主张来自模型的权重——在预训练或微调期间记忆的事实。没有可以引用的文档。其“新鲜度”是该主题有效截止日期的函数,而模型本身并不知晓这一点。
  • 推断 (Inferred)。模型结合了检索到的片段和参数化先验知识,产生了一个两者都不存在的主张。有时这是正确的综合,有时则是披着引用外衣的幻觉。UI 对它的展示与前两者相同。

一项 2025 年关于引用和 LLM 信任的研究发现,当回复包含引用时,用户的信任度会显著提高——即使这些引用是随机的。只有当参与者真正点击进入并核查时,信任度才会下降。合理的解释是:大多数用户不会核查,引用的视觉存在正在承担引用本身并未真正赢得的工作。如果你的 UI 不分青红皂白地引用所有内容——包括由貌似相关的 URL 包装的参数化和推断主张——你就是为答案中最不值得信任的部分构建了一个信任放大器。

修复方法是结构性的,而非风格上的。渲染输出中的每个主张在被 UI 看到之前,都需要被标记其来源类别:检索到的需带有真实的来源和真实的时间戳,参数化的需带有诚实的“来自训练数据,上次刷新于 [报告的截止日期]”标签,推断出的需带有明确的“综合”标注。模型是循环中唯一在生成时知道哪个是哪个的组件。事后通过将字符串与检索到的片段进行反向匹配来恢复这些信息,仅在模型逐字复制的情况下有效,而这种情况本就不需要帮助。

“世界是否依旧”预检

某些意图具有模型可以察觉的时效性,而一个廉价的预检关口(pre-flight gate)能在充满自信的错误答案交付之前,拦截其中令人惊讶的高比例。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates