生产级 AI 系统中的时序推理失效
· 阅读需 12 分钟
一个自信地推荐已经缺货六个月产品的智能体;一个告诉用户查不到 20 分钟前下单记录的客服机器人;一个针对两年前已废弃的库 API 生成可正常运行代码的编程助手。这些并不是传统意义上的“幻觉”——模型只是在回忆曾经准确的信息。这是一种完全不同的失效模式,而且大多数团队还没有准备好如何检测或防御它。
这种区分至关重要,因为缓解措施根本不同。你无法通过提示词工程解决时效性问题。你也无法通过微调来解决——对过时的知识进行微调只会让问题变得更糟,而不是更好,因为模型会以更高的权威感表达过时的信息。随着模型在表达上变得越来越流利和自信,它们那些自信且错误的陈旧答案对用户来说变得更难察觉,而不是更简单。
