Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs

（AAAI 2025）

激活数据集构建

为了找到导致幻觉的参数，首先需要构建对比数据，即针对同一张图片生成“无幻觉”和“有幻觉”的两种回答。

目标是找到模型中具体哪一层的参数对幻觉负责。

将正负样本对分别输入 VLM，获取每一层解码器（Decoder Layer）的隐藏状态（Hidden States）。计算正样本隐藏状态 $h_l^{(+)}$ 和负样本隐藏状态 $h_l^{(-)}$ 在每一层 $l$ 的欧几里得距离。

距离最大的层被认为是“幻觉易发层”（Hallucination-prone layer），因为该层在处理事实与幻觉时表现出最大的差异。

$$l _ {hallu} = \arg\max _ {l \in {1,\dots,L}} | h_l^{(+)} - h_l^{(-)} |_2$$

在定位到的第 $l _ {hallu}$ 层中，作者具体锁定 MLP（多层感知机）模块的第二层权重矩阵作为编辑目标，因为该层通常负责知识的存储和传播。

作者并没有简单地微调模型，而是设计了一个“对抗性”的训练目标：强迫模型即使在受到干扰（对抗性前缀）的情况下，也能生成正确的、基于视觉的回答。

首先，需要自动生成一个最能诱导模型产生幻觉的“对抗性前缀”（而不是手动编写 Prompt）。

冻结 VLM 的所有参数，只训练一个可学习的前缀矩阵 $E_x$ 。

最大化生成“负样本（幻觉回答）” $y^-$ 的概率。这意味着这个前缀 $E_x$ 会极力诱导模型忽略视觉信息。

$$\min _ {E_x} \mathcal{L}_q = - \log P _ {W_0}(y^- | [V, E_p, E_x])$$

其中

现在，使用训练好的对抗性前缀 $E_x$ 来“特训”模型中被定位到的参数 $W_t$。

冻结除 $l _ {hallu}$ 层 MLP 参数以外的所有参数。

损失函数 1：对抗性编辑损失 ($\mathcal{L}_e$)

要求模型在输入对抗性前缀（旨在诱导幻觉）的情况下，依然生成正样本（正确回答） $y^+$ 。

公式：

$$\min _ {W_t} \mathcal{L}_e = - \log P _ {W_t}(y^+ | v, q, x)$$

原理：如果模型能在有人故意误导（对抗前缀）时都答对，那么在正常情况下它会更关注视觉证据。

损失函数 2：KL 散度约束 ($\mathcal{L}_c$)

为了防止编辑破坏模型的通用能力，要求编辑后的模型 $W_t$ 在面对正常输入时，输出分布应与原始模型 $W_0$ 保持一致。

$$\min _ {W_t} \mathcal{L}_c = KL(P _ {W_t}(\cdot | [v, x]) || P _ {W_0}(\cdot | [v, x]))$$

总优化目标：

$$\min _ {W_t} \mathcal{L} = \min _ {W_t} (\lambda \mathcal{L}_e + \mathcal{L}_c)$$

其中 $\lambda$ 是平衡系数，实验中设为 0.1 。

#深度学习 #大模型

Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs

https://lijianxiong.space/2026/20260214-1/

作者

LJX

发布于

2026年2月14日

许可协议