Beyond the Global Scores: Fine-Grained Token Grounding as a Robust Detector of LVLM Hallucinations

(CVPR 2026)

motivation

现有方法的缺陷: 目前主流的幻觉检测方法大多采用“全局统计”范式,即评估输出的词(Token)与整张图像的相关性(例如将所有图像块的注意力相加)。

注意力陷阱(Attention Sink): 这种粗粒度的全局策略存在致命漏洞。一个幻觉词虽然没有对应的真实图像区域,但它可能会在许多不相关的局部区域产生微弱且分散的关联响应 。当把这些分散的弱信号全局相加时,该幻觉词看起来就会与整张图像“高度相关”,从而成功逃脱现有检测器的检测。

方法

一个直观且关键的洞察:如果一个物体真实存在,那么它对应的 Token 必然在图像的特定区域有强烈的“视觉锚定”(Grounding)

指标一:注意力分散度得分 (Attention Dispersion Score, ADS)

物理直觉: 真实词的注意力分布是紧凑且高度集中的(聚焦在物体上);而幻觉词的注意力则如同一盘散沙,在无关区域漫无目的地发散 。

计算方法与公式:

注意力均值图: 首先,计算生成词 $t$ 在第 $n$ 层所有注意力头($H$ 个)上的平均注意力响应图 :

$$\overline{A} _ {t}^{(n)}=\frac{1}{H}\sum _ {h=1}^{H}A _ {t}^{(n,h)}$$

前景与背景分离: 提取响应值最高的前 $x$% 的图像块作为“前景”($\mathcal{F} _ {t}^{(n)}$),其余为“背景”($\mathcal{B} _ {t}^{(n)}$)。

滤除噪点: 将前景图像块组合成 8-连通组件,并剔除面积过小的组件(过滤掉注意力陷阱),得到有效的组件集合 $\mathcal{C} _ {t}^{(n)*}$ 。

计算前景块权重总和 ($m _ {t}^{(n)}$): 衡量有效组件捕获了多少注意力 :

$$m _ {t}^{(n)}=\sum _ {C\in\mathcal{C} _ {t}^{(n)*}}\sum _ {p\in C}\overline{A} _ {t}^{(n)}(p)$$

计算背景空间熵 ($\hat{H} _ {t}^{(n)}$): 对背景残余注意力进行归一化(得到 $E _ {t}^{(n)}$)后,计算其香农熵以量化注意力的杂乱程度 :

$$\hat{H} _ {t}^{(n)}=\frac{-\sum _ {p\in\mathcal{B} _ {t}^{(n)}}E _ {t}^{(n)}(p)log~E _ {t}^{(n)}(p)}{log|\mathcal{P}|}$$

最终得分 (ADS): 结合前景缺失程度和背景混乱程度 :

$$ADS _ {t}^{(n)}=(1-m _ {t}^{(n)})\cdot\hat{H} _ {t}^{(n)}$$

(ADS 得分越高,说明注意力越分散,该词是幻觉的概率越大 。)

指标二:跨模态基础一致性 (Cross-modal Grounding Consistency, CGC)

物理直觉: 真实的词应该与图像中某些特定的区域在语义特征上高度一致;如果一个词跟图像里所有的局部区域都不怎么相似,那它大概率是语言模型自己“脑补”出来的先验偏见 。

计算方法与公式:

特征余弦相似度: 在第 $n$ 层,计算 Token 的嵌入向量 $h _ {t}^{(n)}$ 与每一个视觉图像块的嵌入向量 $v _ {p}^{(n)}$ 之间的余弦相似度 :

$$S _ {t,p}^{(n)}=\frac{\langle h _ {t}^{(n)},v _ {p}^{(n)}\rangle}{||h _ {t}^{(n)}|| _ {2}||v _ {p}^{(n)}|| _ {2}}$$

提取局部对齐得分 ($C _ {t}^{(n)}$): 为了强调局部证据,提取相似度最高的 Top-$k$ 个图像块组成集合 $\mathcal{T} _ {t}^{(n)}$,计算其平均相似度 :

$$C _ {t}^{(n)}=\frac{1}{k}\sum _ {p\in\mathcal{T} _ {t}^{(n)}}S _ {t,p}^{(n)}$$

(CGC 得分越低,说明视觉与语言的语义对齐越弱,越有可能是幻觉 。)

构建轻量级检测器

有了这两个强大的指标后,作者构建了一个非常简单且可解释性强的检测器 :

将某一个 Token 在模型所有 $L$ 层的 ADS 得分和 CGC 得分提取出来,拼接成一个长度为 $2L$ 的特征向量 :

$$f _ {t}=[ADS _ {t}||C _ {t}]\in\mathbb{R}^{2L}$$

将这个特征向量输入到轻量级的机器学习分类器(如 XGBoost、随机森林或多层感知机 MLP)中,训练其预测该 Token 是否为幻觉。


Beyond the Global Scores: Fine-Grained Token Grounding as a Robust Detector of LVLM Hallucinations
https://lijianxiong.space/2026/20260410/
作者
LJX
发布于
2026年4月10日
许可协议