LLM 中的图推理缺陷:为那些令序列训练模型困惑的关系任务构建脚手架
AI 系统设计中一个常见的错误是要求语言模型像阅读文档一样对图(graph)进行推理。模型会生成一个自信且流利的答案。但这个答案会以一种看起来正确的方式出错——它会列出真实的节点,引用看似合理的路径,并描述几乎存在的关系。接着你会发现,你的组织架构遍历幻觉出了越级经理,你的依赖项解析忽略了超过十个节点的图中的循环,而你的三跳知识图谱查询在第二步时的错误率就达到了 60%。
这不是提示词(prompt)质量的问题。这是一个架构问题,你可以在编写任何提示词之前就诊断出它。
根本原因:序列模型具有线性先验
LLM 是在序列上训练的。它们的 Transformer 架构通过在令牌流(token stream)上的 注意力机制从左到右处理文本,并构建表示。这对于语言来说极其有效,因为语言的意义沿着线性轴流动,具有局部且有时是长距离的依赖关系。
图不是序列。图没有规范的顺序。节点只有邻域(neighborhoods),没有位置。最短路径查询需要维护一个候选前沿(frontier),在每一步跳转时更新距离,并进行回溯——这些操作在下一个令牌预测中没有自然的类比。当你将图序列化为文本并交给 LLM 时,模型将其线性先验应用于一个本质上是非线性的结构。
经验证据是确凿的。在图计算任务(GraphArena, ICLR 2025)上对 LLM 进行基准测试的研究发现,在直径计算任务上,五节点图的幻觉率从 16% 跃升至三十节点图的 80% 以上。随着路径长度超过三或四跳,最短路径查询的成功率急剧下降。循环检测——在概念上很简单,只需要带有访问集合的深度优先搜索(DFS)——在超过十个节点的图上始终失败。这些数字并不会随着更好的提示词而显著改善;它们追踪的是任务的复杂性,而不是指令的质量。
Google 2024 年关于图编码的研究发现,仅序列化格式的选择就能使准确率波动 55 个百分点。这并不是说正确的编码解决了问题——这表明模型是在对文本结构进行模式匹配,而不是进行图推理。
构建前你需要了解的失败分类学
并非所有的图问题都会以同样的方式失败。在投入架构之前,对你的目标任务进行快速的复杂度审计。失败模式分为三类。
局部属性查询
