CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models

(TMLR 2026)


motivation

过往的对比解码 仅移除视觉信息(M3ID)或仅保留部分视觉信息(SID)无法同时解决视觉误解和语言偏见带来的幻觉 。

随着生成的进行,模型对视觉信息的依赖度(Visual Dependency, VD)会急剧下降 。这意味着在生成句子的后半段,模型主要依赖之前的文本上下文,此时基于“视觉缺失”的幻觉模型变得不再有效,导致后期幻觉频发 。

方法

$$
\log p_t^{CROPS} := (1+\alpha^{(1)}+\alpha_t^{(2)}) \log p_t^{orig} - \alpha^{(1)} \log p_t^{vis-hal} - \alpha_t^{(2)} \log p_t^{vis-txt-hal}
$$

其中:

$\alpha^{(1)}$ (常数): 用于视觉缺陷模型。因为视觉幻觉主要发生在早期,保持恒定惩罚即可 。

$\alpha_t^{(2)}$ (动态增加): 用于视觉-文本缺陷模型。设计为随时间 $t$ 增加,以应对生成后期日益严重的文本主导幻觉 。其形式通常为:
$$
\alpha_t^{(2)} := \frac{1 - e^{-\gamma t}}{e^{-\gamma t}}
$$

模型一:视觉缺陷模型 ($p_t^{vis-hal}$)

捕捉由错误视觉特征或统计偏差引起的幻觉,主要在生成初期起作用 。

保留所有文本,但移除重要的视觉 Token,仅保留最不重要的部分视觉 Token ($\overline{V}$) 。这迫使模型基于残缺的视觉信息生成,从而暴露视觉相关的幻觉。

$$p_t^{vis-hal} := \text{softmax} \circ LLM _ {\theta}(\overline{V}, X, y _ {<t})$$

模型二:视觉-文本双重缺陷模型 ($p_t^{vis-txt-hal}$)

移除所有视觉 Token,并且移除重要的文本 Token(Prompt 和历史生成内容),仅保留最不重要的文本 Token ($\overline{X, y _ {<t}}$) 。

$$p_t^{vis-txt-hal} := \text{softmax} \circ LLM _ {\theta}(\overline{X, y _ {<t}})$$

解决生成后期模型对图像不敏感的问题。当模型忽略图像时,仅移除图像(如 M3ID 方法)产生的分布与原始分布过于相似,无法提供有效对比 。

Token 剪枝策略

CROPS 使用注意力权重来评估重要性 。

对于当前生成的 Token $y_t$,计算其对上下文 Key Token $K$ 的注意力得分 $\psi(y_t)$:

$$\psi(y_t) = \frac{1}{H} \sum _ {h=1}^{H} \text{Attention}^{(l,h)}(K, y_t)$$

CROPS 保留得分最低的那些 Token(即 $\overline{X, y _ {<t}}$)。保留的数量由一个非递减函数 $\eta(\mu, t)$ 决定,随着生成长度 $t$ 的增加,保留的 Token 数量也会增加,以维持稀疏性 :

$$\eta(\mu, t) = \beta_0 + \beta_1 (1 - e^{-\mu t})$$


CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models
https://lijianxiong.space/2026/20260214/
作者
LJX
发布于
2026年2月14日
许可协议