SAVE: Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination
(WACV 2026)
引入了稀疏自编码器SAE( flybamboo/vlm-saes )将这些复杂的表征映射到一个高维且稀疏的潜在空间(Latent Space)中,使得每个维度对应一个单一、可解释的概念 。
- 构建了 10,000 个平衡的查询(5,000 个真实存在的物体,5,000 个伪造/幻觉的物体) 。
- 模型回答正确的样本激活值被归入集合 $\mathcal{X}{correct}$,回答错误的(产生幻觉的)被归入 $\mathcal{X}{hallu}$ 。
对于特征字典中的第 $j$ 个特征,计算它在正确响应和幻觉响应中的激活频率:
$$f_{j}^{correct} = \frac{1}{N_{correct}}\sum_{i=1}^{N_{correct}}\mathbb{1}[a_{j}(x_{i}^{correct})>0]$$
$$f_{j}^{hallu} = \frac{1}{N_{hallu}}\sum_{i=1}^{N_{hallu}}\mathbb{1}[a_{j}(x_{i}^{hallu})>0]$$
接着,计算分离分数 (Separation Score):
$$s_{j} = f_{j}^{correct} - f_{j}^{hallu}$$找到使 $s_{j}$ 最大的特征,即 $\arg\max_{j} \quad s_{j}$。这个特征就是模型处理视觉信息时的重要特征。
反之,使得 $f_{j}^{hallu} - f_{j}^{correct}$ 最大的特征,就是模型产生幻觉时的特征 。
在找出最能代表“视觉理解”的特征索引 $j$ 及其对应的解码器方向 $W_{dec}[j,:]$ 后,SAVE 在模型正常的推理生成过程中,对隐藏状态 $x$ 进行人为干预(加权操作) 。
$$x_{steered} = x + \alpha W_{dec}[j,:]$$
SAVE: Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination
https://lijianxiong.space/2026/20260330/