CRoPS： A Training-Free Hallucination Mitigation Framework for Vision-Language Models

（TMLR 2026）

motivation

过往的对比解码 仅移除视觉信息（M3ID）或仅保留部分视觉信息（SID）无法同时解决视觉误解和语言偏见带来的幻觉。

随着生成的进行，模型对视觉信息的依赖度（Visual Dependency, VD）会急剧下降。这意味着在生成句子的后半段，模型主要依赖之前的文本上下文，此时基于“视觉缺失”的幻觉模型变得不再有效，导致后期幻觉频发。

$$
\log p_t^{CROPS} := (1+\alpha^{(1)}+\alpha_t^{(2)}) \log p_t^{orig} - \alpha^{(1)} \log p_t^{vis-hal} - \alpha_t^{(2)} \log p_t^{vis-txt-hal}
$$

其中：

$\alpha^{(1)}$ (常数): 用于视觉缺陷模型。因为视觉幻觉主要发生在早期，保持恒定惩罚即可。

$\alpha_t^{(2)}$ (动态增加): 用于视觉-文本缺陷模型。设计为随时间 $t$ 增加，以应对生成后期日益严重的文本主导幻觉。其形式通常为：
$$
\alpha_t^{(2)} := \frac{1 - e^{-\gamma t}}{e^{-\gamma t}}
$$

捕捉由错误视觉特征或统计偏差引起的幻觉，主要在生成初期起作用。

保留所有文本，但移除重要的视觉 Token，仅保留最不重要的部分视觉 Token ($\overline{V}$) 。这迫使模型基于残缺的视觉信息生成，从而暴露视觉相关的幻觉。

$$p_t^{vis-hal} := \text{softmax} \circ LLM _ {\theta}(\overline{V}, X, y _ {<t})$$

移除所有视觉 Token，并且移除重要的文本 Token（Prompt 和历史生成内容），仅保留最不重要的文本 Token ($\overline{X, y _ {<t}}$) 。

$$p_t^{vis-txt-hal} := \text{softmax} \circ LLM _ {\theta}(\overline{X, y _ {<t}})$$

解决生成后期模型对图像不敏感的问题。当模型忽略图像时，仅移除图像（如 M3ID 方法）产生的分布与原始分布过于相似，无法提供有效对比。

CROPS 使用注意力权重来评估重要性。

对于当前生成的 Token $y_t$，计算其对上下文 Key Token $K$ 的注意力得分 $\psi(y_t)$：

$$\psi(y_t) = \frac{1}{H} \sum _ {h=1}^{H} \text{Attention}^{(l,h)}(K, y_t)$$

CROPS 保留得分最低的那些 Token（即 $\overline{X, y _ {<t}}$）。保留的数量由一个非递减函数 $\eta(\mu, t)$ 决定，随着生成长度 $t$ 的增加，保留的 Token 数量也会增加，以维持稀疏性：

$$\eta(\mu, t) = \beta_0 + \beta_1 (1 - e^{-\mu t})$$

#深度学习 #大模型

CRoPS： A Training-Free Hallucination Mitigation Framework for Vision-Language Models

https://lijianxiong.space/2026/20260214/

作者

LJX

发布于

2026年2月14日

许可协议