When Do Hallucinations Arise？ A Graph Perspective on the Evolution of Path Reuse and Path Compression

（ ICML 2026）

从图结构的视角深入剖析了decoder-only Transformer架构的大型语言模型产生推理幻觉的内部机制。

方法

训练

作者首先将大模型的“多步推理”用严格的数学图论进行了定义。

底层推理图（Underlying Reasoning Graph）：设 $G=(V, E)$ 为有向图。在这个图中，每一个节点 $v \in V$ 代表一个原子的推理状态（比如一个实体），每一条有向边 $(u,v) \in E$ 代表合法的逻辑过渡。
有效推理路径（Valid Reasoning Path）：给定起点 $s$ 和终点 $t$，有效的推理路径是一个节点序列 $p=(v_0, v_1, …, v_L)$，其中 $v_0=s, v_L=t$，且相邻节点之间必须有真实的边相连，即 $(v _ {i-1}, v_i) \in E$ 。

有了这个“真理字典”后，作者将训练任务分为两类：

内在推理（Intrinsic Reasoning）：给模型一个采样的子图 $G_I$（表示上下文限制），要求模型只能在这个子图的范围内寻找从 $s$ 到 $t$ 的路径。
外在推理（Extrinsic Reasoning）：不给任何上下文，只给起点和终点，逼迫模型单纯依靠其参数中记忆的知识去寻找路径。

这两者又对应两种幻觉：

A. 内在推理中的幻觉：路径重用

发生机制：这种幻觉主要出现在训练的早期阶段，或当训练数据有限导致模型欠拟合时。
行为表现：Transformer 模型会先掌握全局的底层图结构，然后再学习如何使用局部的上下文约束。因此，模型在遇到新的条件查询时，会直接重用其记忆中存在的推理路径，而完全忽略了当前给定的特定上下文约束。
结果：模型输出了流利但与输入上下文相冲突的内容。

B. 外在推理中的幻觉：路径压缩

发生机制：这种幻觉主要出现在训练的后期阶段，此时模型对训练数据产生了过拟合。
行为表现：模型倾向于将频繁遍历的多步推理路径压缩为“捷径”（shortcut edges）。具体而言，推理过程会跳过那些出度（out-degree）较低的中间节点（例如跨社区的桥接节点），而直接跳转到出度较高（high-out-degree）的节点上。
根本原因：这种压缩现象是因为模型学习到的多跳序列共现性（co-occurrence）压倒了图中严格的单步拓扑相邻性约束，从而导致模型预测出一条本不存在的边。
架构局限：单纯增加模型的层数（加深网络结构）并不能帮助模型从这种路径压缩中恢复。

构建数据集

子图的最大数量（内在推理数据集）：对于包含 $|V|$ 个节点和 $|E|$ 条边的图，其能够生成的子图数量上限为 $\#\mathcal{G}_I(G)=\sum _ {U\subset V} 2^{|E[U]|}$ 。由于这个数量呈指数级爆炸，作者得以拥有极其庞大的样本库来控制模型的“可见数据比例”（例如只给模型看 0.1% 的数据来观察欠拟合）。

最短路径的最大组合（外在推理数据集）：作者利用层级间边缘密度 $\rho_i$ 和每一层的节点数，将实现最短路径的数量上限设定为 $\prod _ {i=0}^{d-1}\sqrt{\rho_i|V _ {i+1}|}$ 。

防泄露隔离：在划分 90% 训练集和 10% 测试集时，作者进行了严格的过滤，如果测试集中的某条最短路径的节点序列是训练集路径的“子序列”，则将其剔除，以绝对防止信息泄露。

研究“路径重用”的方法：监控三大准确率分离

为了捕捉模型无视上下文的“路径重用”幻觉，作者在一个具有 10 个节点、连接概率为0.4的Erdős-Rényi (ER) 随机图上进行了 Transformer 从头训练。

ER 图（Erdős-Rényi Graph）是图论和网络科学中极其经典的一种随机图模型。

基本概念：在一个包含固定数量节点（例如 $N$ 个节点）的图中，任意两个节点之间是否存在连接（边），是根据一个固定的概率 $p$ 随机决定的。

特性：因为是纯随机生成的，ER 图的连接非常均匀，没有明显的“中心节点”，也没有明显的“社区聚类”现象。

在这篇论文中的作用：在论文第四部分（研究“内在推理幻觉”时），作者刻意使用了一个只有 10 个节点、连接概率为 0.4 的小型 ER 图作为底层图。使用 ER 图是为了提供一个最纯粹、最均匀的实验环境，排除了复杂网络结构（比如社区瓶颈）的干扰，从而单纯地观察模型在初期是如何学习路径搜索的。

作者定义了三个层层递进的数学指标（指示函数），并在训练全程监控它们的曲线走势：

存在准确率 ($Acc _ {Exist}$)：只看模型预测的路径在底层全局图 $G$ 中是否合法，不管它是否遵守了子图上下文。
局部准确率 ($Acc _ {Local}$)：最严格的指标。模型不仅要走合法的边，还必须严格遵守给定的子图上下文约束$\mathcal{C}$。
全局准确率 ($Acc _ {Global}$)：评估对所有可达节点对的泛化能力。

判断标准：如果随着训练步数增加，$Acc _ {Exist}$ 极高，而 $Acc _ {Local}$ 极低，这就在数学上实锤了模型正在发生“路径重用”幻觉——它脑子里记住了底层的边，但根本不理会你给定的上下文限制。

研究“路径压缩”的方法：多维度的错误解剖

为了观察模型在训练后期为什么会“寻找捷径”，作者更换了更复杂的随机块模型（SBM 图）。SBM 图被划分为多个“社区（Community）”，通过控制社区内部概率 $p _ {in}$ 和跨社区概率 $p _ {out}$，可以人为制造出“推理瓶颈”（Bridge nodes）。

在这个图上，作者使用了以下方法进行深入解剖：

引入未压缩率指标（Uncompressed Ratio $R$）：计算公式为 预测路径长度 / 真实基准路径长度。$R$ 值越小，说明模型跳过的中间步骤越多，路径压缩幻觉越严重。
错误跳数分析（Hop-distance Error Analysis）：作者追踪了模型预测错误的节点，发现最大的错误来源不是胡言乱语，而是模型直接预测了目标路径上 $3$-hop（3跳）或 $k$-hop 之外的邻居节点，直接跨过了中间的 $1$-hop 节点。
出度统计验证（Out-Degree Ratio）：作者对底层图所有节点的出度进行了 Z-score 标准化。统计结果显示，被模型直接“跳过去”的中间节点通常是低出度的，而模型“降落”的错误节点往往是高出度节点。

路径压缩的数学模型推导

证明了为什么基于 Transformer 的大语言模型必然会在训练后期产生“跳过中间步骤”的捷径幻觉（路径压缩）。

推导建立在一个核心矛盾上：图的拓扑结构是离散且只看相邻关系的（马尔可夫性），但 Transformer 的自注意力机制是聚合全局上下文的

第一步：定义真实的“单步转移矩阵” $T$

假设在一个图里，我们要从节点走下一步，最自然的方式是随机游走（Random Walk）。

定义 $T$ 为真实的 1 步随机游走转移矩阵：

如果节点 $x$ 到节点 $y$ 有一条真实的边，那么走过去的概率均分给 $x$ 的所有出边：$(T) _ {xy} = \frac{1}{outdeg(x)}$ 。
如果节点 $x$ 到节点 $y$ 没有边，那么概率为 0：$(T) _ {xy} = 0$ 。

在这个设定下，如果你想知道从 $x$ 走 2 步到达 $y$ 的概率，就是矩阵相乘 $T^2$；走 $i$ 步到达的概率就是 $T^i$ 。

第二步：建立 Transformer 的“认知模型”（假设 B.2）

这是最关键的一步。传统的随机游走只看眼前的一步，但 Transformer 拥有一个长度为 $K$ 的上下文窗口（Context Window），它能看到多跳之外的共现（co-occurrence）关系。

因此，论文假设 Transformer 学习到的转移概率 $P_\theta(y|x)$，并不是严格的 1 步矩阵 $T$，而是 $1$ 到 $K$ 步转移矩阵的加权混合（凸组合） ：

$$P_\theta(y|x) = \sum _ {i=1}^K \lambda_i (T^i) _ {xy}$$

$\lambda_i$ 是什么？ 这是模型在训练中自动学到的权重。它代表了模型有多看重“相隔 $i$ 跳的邻居” 。在训练后期（过拟合阶段），因为远距离的实体经常在同一个句子里共现，$\lambda_2, \lambda_3$ 甚至 $\lambda_k$ 的权重会变得异常大。

第三步：推导“产生捷径幻觉”的数学条件（命题 B.3，以 2 跳为例）

现在，假设图里有一条真实的 2 跳路径：起点 $v \rightarrow$ 中间节点 $m \rightarrow$ 终点 $u$ 。注意前提：$v$ 和 $u$ 之间没有直接的边相连（即真实的 1 跳中，应该走不到 $u$）。

此时，我们站在起点 $v$，要求模型预测下一个 Token：

1. 模型预测正确的 1 跳邻居 $m$ 的概率是多少？ 根据公式，展开 $K=2$ 的情况：

$$P_\theta(m|v) = \lambda_1 (T) _ {vm} + \lambda_2 (T^2) _ {vm}$$

假设图中没有其他从 $v$ 绕 2 步回到 $m$ 的环，那么 $(T^2) _ {vm} = 0$ 。所以：

$$P_\theta(m|v) = \lambda_1 (T) _ {vm} = \frac{\lambda_1}{outdeg(v)}$$

2. 模型产生幻觉，直接预测 2 跳目标 $u$ 的概率是多少？ 因为 $v$ 和 $u$ 没有直接的边，所以真实的 $(T) _ {vu} = 0$ 。代入公式：

$$P_\theta(u|v) = \lambda_1 (T) _ {vu} + \lambda_2 (T^2) _ {vu} = \lambda_2 (T^2) _ {vu}$$

那么 $(T^2) _ {vu}$ 是多少呢？它是所有从 $v$ 到 $u$ 的 2 步路径概率之和（假设中间节点集合为 $\mathcal{M}$）：

$$(T^2) _ {vu} = \sum _ {m’ \in \mathcal{M}} T _ {vm’} T _ {m’u} = \sum _ {m’ \in \mathcal{M}} \left(\frac{1}{outdeg(v)} \cdot \frac{1}{outdeg(m’)}\right)$$

把上面的式子代回预测概率中：

$$P_\theta(u|v) = \frac{\lambda_2}{outdeg(v)} \sum _ {m’ \in \mathcal{M}} \frac{1}{outdeg(m’)}$$

3. 幻觉发生的数学判定 产生幻觉（路径压缩）意味着，模型觉得直接跳到 $u$ 的概率，比老老实实走到 $m$ 的概率还要大，即：

$$P_\theta(u|v) > P_\theta(m|v)$$

将上面求出的两个式子代入不等式，两边消去 $\frac{1}{outdeg(v)}$，就得到了捷径幻觉发生的终极条件 ：

$$\frac{\lambda_2}{\lambda_1} > \frac{1}{\sum _ {m’ \in \mathcal{M}} \frac{1}{outdeg(m’)}}$$

第四步：将数学翻译成“大白话”结论

看着上面这个最终的不等式，我们可以得出两个极其深刻的关于大模型行为的结论：

左边 $\frac{\lambda_2}{\lambda_1}$ 代表模型的“心智状态”（过拟合程度）：
- 在训练初期，模型只看眼前，$\lambda_1$ 很大，不等式不成立，模型老老实实走 1 步。
- 但在训练后期，模型在上下文中看到了太多次 $v$ 和 $u$ 隔着几个词一起出现（统计共现），导致多跳权重 $\lambda_2$ 急剧膨胀。当 $\frac{\lambda_2}{\lambda_1}$ 大过临界值时，幻觉就不可避免地发生了。
右边 $\frac{1}{\sum _ {m’ \in \mathcal{M}} \frac{1}{outdeg(m’)}}$ 代表图的“地理形态”（社区瓶颈效应）：
- 注意看分母里有个 $\frac{1}{outdeg(m’)}$ 。如果中间节点 $m’$ 的出度（outdeg）非常小，说明它是一个冷门节点（或者跨社区的唯一“桥梁”）。
- 当出度小的时候，$\frac{1}{outdeg(m’)}$ 就很大，导致整个右边的不等式阈值变得非常小。
- 结论： 中间节点越冷门（出度越低），模型越容易跳过它！ 模型会觉得：“与其通过这个我不熟悉的冷门桥梁去推导，不如根据我的共现记忆，直接把起点和终点连起来。”这就完美解释了论文前面观察到的现象：错误跳跃通常发生在跨越低出度桥接节点的时候。

(注：论文的命题 B.4 将上述逻辑严格推广到了距离为 $d$ 跳的情况，证明逻辑完全一致：只要距离为 $d$ 的累积共现权重 $\lambda_d$ 压倒了中间极度稀疏的拓扑惩罚，多步推理就会坍缩成一步捷径。)

总结

整篇论文略为抽象。一开始以为是训练好的transformer进行分析（类似SAE），没想到是从头训练一个transformer。

#深度学习 #大模型

When Do Hallucinations Arise？ A Graph Perspective on the Evolution of Path Reuse and Path Compression

https://lijianxiong.space/2026/20260616/

作者

LJX

发布于

2026年6月16日

许可协议

Structural Graph Probing of Vision-Language Models 上一篇

Graph of Thoughts： Solving Elaborate Problems with Large Language Models 下一篇