Lyapunov Probes for Hallucination Detection in Large Foundation Models

(CVPR 2026)

论文将大模型的正向计算过程形式化为一个受动力系统控制的转换序列:$\mathcal{F}: \mathbb{R}^d \rightarrow \mathbb{R}^d$,其中 $d$ 是隐藏状态的维度 。对于输入序列,隐藏状态在各个网络层之间的演化过程可以表示为:

$$h^{(l+1)}=\mathcal{F}^{(l)}(h^{(l)})$$

基于这种动力学视角,作者将模型的表示空间划分为三个主要区域 :

  • 稳定已知区($\mathcal{S}_K$):输入深深植根于模型的事实知识中 。对于微小扰动 $\delta$,系统的输出依然保持稳健和事实一致 。
  • 稳定未知区($\mathcal{S}_U$):输入超出了模型的知识范围,但系统状态依然稳定,模型通常会一致地输出“不知道”或避免猜测 。
  • 不稳定知识边界区($\mathcal{B}$):位于上述两区之间的过渡带,表现出条件性或脆弱的稳定性 。在这个区域,对输入的微小扰动会导致输出发生剧烈变化,这里就是幻觉最容易发生的地方

探针

探针模型会融合多层的Transformer隐藏状态 ${h_l}_{l\in\mathcal{L}}$,并显式地将扰动强度 $\delta$ 作为输入拼接在一起 。探针最终输出一个 $[0, 1]$ 之间的置信度分数,公式如下:

$$V(h,\delta)=\text{Classifier}(\text{HiddenProcessor}({h_l}_{l\in\mathcal{L}};\delta))$$

为了让探针在训练中“感受”到边界的稳定性,作者设计了多尺度的渐进式扰动 :

  • 语义扰动(Semantic Perturbations):在输入端进行同词性替换、插入随机标记或调整句子结构 。
  • 表示扰动(Representational Perturbations):在模型的内部隐藏状态直接注入高斯噪声 。

损失函数为

$$\mathcal{L}{total}=\mathcal{L}{BCE}+\lambda\mathcal{L}_{Lyapunov}$$

其中有交叉熵:

$$\mathcal{L}_{BCE}=-\mathbb{E}[y\log V_0+(1-y)\log(1-V_0)]$$

其中 $V_0=V(h,0)$ 是未扰动时的预测置信度,$y \in {0,1}$ 是真实标签(指示模型回答是否正确) 。

还有李雅普诺夫约束损失。

$$\mathcal{L}{Lyapunov}=\mathbb{E}{h,\delta}[\max(0,\frac{\partial V(h,\delta)}{\partial\delta})]$$

这严格执行了李雅普诺夫稳定性条件 $\frac{\partial V(h,\delta)}{\partial|\delta|}<0$ 。


Lyapunov Probes for Hallucination Detection in Large Foundation Models
https://lijianxiong.space/2026/20260308/
作者
LJX
发布于
2026年3月8日
许可协议