SAVE： Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination

(WACV 2026)

引入了稀疏自编码器SAE（ flybamboo/vlm-saes ）将这些复杂的表征映射到一个高维且稀疏的潜在空间（Latent Space）中，使得每个维度对应一个单一、可解释的概念。

构建了 10,000 个平衡的查询（5,000 个真实存在的物体，5,000 个伪造/幻觉的物体）。
模型回答正确的样本激活值被归入集合 $\mathcal{X}{correct}$，回答错误的（产生幻觉的）被归入 $\mathcal{X}{hallu}$ 。

对于特征字典中的第 $j$ 个特征，计算它在正确响应和幻觉响应中的激活频率：

$$f_{j}^{correct} = \frac{1}{N_{correct}}\sum_{i=1}^{N_{correct}}\mathbb{1}[a_{j}(x_{i}^{correct})>0]$$

$$f_{j}^{hallu} = \frac{1}{N_{hallu}}\sum_{i=1}^{N_{hallu}}\mathbb{1}[a_{j}(x_{i}^{hallu})>0]$$

接着，计算分离分数 (Separation Score)：

$$s_{j} = f_{j}^{correct} - f_{j}^{hallu}$$找到使 $s_{j}$ 最大的特征，即 $\arg\max_{j} \quad s_{j}$。这个特征就是模型处理视觉信息时的重要特征。

反之，使得 $f_{j}^{hallu} - f_{j}^{correct}$ 最大的特征，就是模型产生幻觉时的特征。

在找出最能代表“视觉理解”的特征索引 $j$ 及其对应的解码器方向 $W_{dec}[j,:]$ 后，SAVE 在模型正常的推理生成过程中，对隐藏状态 $x$ 进行人为干预（加权操作） 。

$$x_{steered} = x + \alpha W_{dec}[j,:]$$

#深度学习 #多模态 #大模型

SAVE： Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination

https://lijianxiong.space/2026/20260330/

作者

LJX

发布于

2026年3月30日

许可协议