Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination

(arxiv 2026)

motivation

传统上,视觉模型中的对抗脆弱性(Adversarial vulnerability)和大语言模型(LLM)中的幻觉(Hallucination)被视为两个完全独立的问题,通常需要针对特定模态使用不同的补丁方法来解决 。然而,这篇论文首次提出,这两种看似无关的失败模式实际上共享着一个共同的几何起源 。

模型进入了损失景观的边界应力区域。在对抗攻击中,微小的输入扰动可以穿越局部陡峭的损失等高线;在大模型中,较弱的提示条件在解码前留下大量延续序列同样兼容,从而引发先验驱动的漂移。作者表明,这两种现象是同一“不确定性预算”被错误管理的两种相反方式——即输入空间定位性与梯度空间敏感性之间的失衡。

神经不确定性原理 (NUP)

论文的核心是借鉴了量子力学中的罗伯逊-薛定谔(Robertson-Schrödinger)不确定性关系,将其应用到神经网络的损失景观(Loss Landscape)中 。

在一般形式下,对于任意两个算符(可观察量)$\hat{A}$ 和 $\hat{B}$,罗伯逊-薛定谔关系表述为:

$$(\Delta \hat{A})^2 (\Delta \hat{B})^2 \ge \left| \frac{1}{2} \langle [\hat{A}, \hat{B}] \rangle \right|^2 + \left| \frac{1}{2} \langle {\Delta\hat{A}, \Delta\hat{B}} \rangle \right|^2$$

由三个关键部分组成:

  • 左边 $(\Delta \hat{A})^2 (\Delta \hat{B})^2$:这是两个变量各自的方差(不确定性)的乘积。
  • 右边第一项 $[\hat{A}, \hat{B}]$(对易子):代表了这两个量在根本属性上的“不相容性”。这就是传统的海森堡不确定性原理所关注的部分。
  • 右边第二项 ${\Delta\hat{A}, \Delta\hat{B}}$(反对易子):这是薛定谔后来补充的关键项。在统计学意义上,它对应于这两个变量的协方差(Covariance),反映了它们之间的线性相关性(耦合度)。

首先,作者定义了两个正则算子(Canonical operators):

  1. 输入投影算子 $\hat{x} _ {u}$:代表输入样本在方向 $u$ 上的投影 。

  2. 方向导数算子 $\hat{p} _ {u}$:代表损失函数在方向 $u$ 上的梯度(即敏感度)。

在由损失函数诱导的特定状态下(重点关注易错的边界样本),这两个算子的方差和协方差必须满足以下 RS 不等式

$$(\Delta\hat{x} _ {u})^{2}(\Delta\hat{p} _ {u})^{2}\ge\kappa^{2}+\text{Cov} _ {c}(\hat{x} _ {u},\hat{p} _ {u})^{2}$$

其中常数 $\kappa = \frac{1}{2}$ 。

为了消除协方差项,作者引入了一个“最佳混合轴”厚度 $\Delta\hat{m} _ {u}^{\ast}$,推导出了一个更直观的混合轴 NUP 约束

$$\Delta\hat{m} _ {u}^{\ast}\Delta\hat{p} _ {u}\ge\frac{1}{2}$$

公式的几何与物理意义:

  • $\Delta\hat{m} _ {u}^{\ast}$ (边界层模糊性/厚度):衡量在损失边界附近,输入特征的一致性。这个值越小,说明边界越清晰(通常对应更高的干净样本准确率)。
  • $\Delta\hat{p} _ {u}$ (敏感度分散):衡量模型对输入微小扰动的敏感程度。这个值越大,模型越容易受到对抗攻击或产生幻觉 。

不可能同时让 $\Delta\hat{m} _ {u}^{\ast}$ 和 $\Delta\hat{p} _ {u}$ 都无限小 。当你通过训练极度压缩边界(减小 $\Delta\hat{m} _ {u}^{\ast}$)时,必然会导致敏感度($\Delta\hat{p} _ {u}$)剧增,这就是对抗脆弱性的根源;反之,如果约束太弱($\Delta\hat{m} _ {u}^{\ast}$ 很大,$\Delta\hat{p} _ {u}$ 失控),生成空间过于松弛,就会导致 LLM 的幻觉

共轭相关探针 (CC-Probe)

理论虽然优美,但算子的方差在实际神经网络中很难直接计算。因此,作者证明了:在随机方向上,算子的协方差可以通过输入向量和梯度向量的标量余弦值来近似估算

由此,作者提出了极具实用价值的单次反向传播探针(CC-Probe):

1. 视觉模型探针 ($c _ {img}$) 对于标准化的图像输入向量 $x$ 及其损失梯度向量 $p(x)$,计算它们的绝对余弦值 :

$$c _ {img}=\frac{|x^{\top}p(x)|}{|x| _ {2}|p(x)| _ {2}}$$

诊断逻辑:如果一个样本的 $c _ {img}$ 异常高,说明它处于“高应力”状态,极易受到对抗攻击(属于高风险/困难样本)。

2. 语言模型探针 ($c _ {prompt}$) 在 LLM 的预填充(Prefill)阶段,提取 Prompt 的嵌入向量 $x$ 和对应的负对数似然(NLL)梯度向量 $p$。为了消除均值漂移,先对它们进行中心化处理($\bar{x}$ 和 $\bar{p}$):

$$c _ {prompt}=\frac{|\bar{x}^{\top}\bar{p}|}{|\bar{x}| _ {2}|\bar{p}| _ {2}}$$

诊断逻辑:如果一个 Prompt 的 $c _ {prompt}$ 异常,说明提示词与损失敏感方向的耦合度极弱(欠条件化),模型在生成时有极大的松弛度(高模糊性),这种情况下极易产生幻觉 。

干预算法:解决脆弱性与幻觉

基于上述探针,作者提出了针对性的干预方法:

  1. 视觉领域的干预:ConjMask 与 LogitReg 既然对抗脆弱性源于输入与梯度的过度耦合(高 $c _ {img}$),那么打破这种耦合就能提升鲁棒性。
  • ConjMask (共轭掩蔽):在训练时,对于预测错误或置信度低的触发样本,模型会计算每个像素通道的归一化交互得分 $|\tilde{x} _ {c,j}\tilde{p} _ {c,j}|$ 。得分越高的像素(即对高耦合贡献最大的像素),会被加上软掩膜(Soft mask),用高斯噪声进行替换 。这在不使用对抗训练(AT)的情况下,大幅提升了模型抵御 PGD 和 APGD-CE 攻击的能力 。
  • LogitReg (逻辑侧正则化):为了弥补 ConjMask 在特定损失(如 DLR 损失)上的防御盲区,作者叠加了输出端的逻辑正则化,全面提升了客观鲁棒性 。

2.语言领域的干预:预填充风险评分与 Prompt 选择 大模型幻觉很难在生成后纠正,但由于 $c _ {prompt}$ 可以在生成任何 Token之前计算出来,它成了一个完美的“零解码(Decoding-free)”过滤器 。

  • 风险评分 (Risk-Cos):定义风险分数为 $-c _ {prompt}$ 。

  • Prompt 选择:面对多个语义相同但表达不同的提示词(Paraphrases),直接计算它们的 $c _ {prompt}$,选择该值最高(即风险分最低、耦合度最健康)的 Prompt 送入模型生成答案 。实验证明,这种方法有效降低了幻觉输出的概率 。


Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination
https://lijianxiong.space/2026/20260328/
作者
LJX
发布于
2026年3月28日
许可协议