IN-CONTEXT SHARPNESS AS ALERTS： AN INNER REPRESENTATION PERSPECTIVE FOR HALLUCINATION MITIGATION

（PMLR 2024）

发现

发现 1：激活状态暗示答案的正确性。在生成正确答案时，目标词元（token）在中间层被输入上下文成功“激活”的比例显著高于错误答案。例如，在 Raw-CFT 数据集中，正确样本的激活率高达 81.29%，而错误样本仅为 24.14% 。

发现 2：正确答案的激活模式更“敏锐”。在模型的中间层（例如 32 层模型中的第 26 层），正确生成的词元对上下文的激活分布非常集中（尖锐），而错误生成的词元激活分布则比较分散。例如，当问题关于“Fabrizio Spada 去世的地方”，正确答案“Rome”在输入序列上的激活非常敏锐，而错误答案“Manila”的激活则很微弱。

提出量化指标（上下文熵）：为了衡量这种“敏锐度”，作者提出了一种基于信息熵的指标——上下文熵（Contextual Entropy） 。熵值越小，说明激活分布越集中（越敏锐），该词元是事实正确答案的概率就越大。实验证明，该指标在区分真假答案时的 AUROC 分数可达 0.76 。

方法

作者使用了激活解码 （Activation Decoding）来缓解幻觉。

在模型预测下一个词时，算法会将“上下文熵”作为惩罚项引入。具体来说，它会鼓励生成那些具有较小上下文熵（即激活更敏锐）的词元，同时抑制那些会增大熵的词元。

调整后的概率分布公式为 $P(v_{p}|v_{1:p-1})\propto e^{-\lambda E(v_{p},v_{1:t})}P(v_{p}|v_{1:p-1})$ 。其中，E 代表上下文熵，$\lambda$ 是控制熵影响程度的超参数。

由于只需计算候选词元与给定的“提示词（Prompt）”之间的激活关系（不包括新生成的词元），作者可以在生成前预先计算好词汇表中所有词（如 LLaMA-2 的 32000 个词）的熵向量。这极大地降低了延迟，使得该方法比另一种基线方法 DoLa 的推理时间缩短了 7.3% 。

#深度学习 #大模型

IN-CONTEXT SHARPNESS AS ALERTS： AN INNER REPRESENTATION PERSPECTIVE FOR HALLUCINATION MITIGATION

https://lijianxiong.space/2026/20260528/

作者

LJX

发布于

2026年5月28日

许可协议

Finding the Correct Visual Evidence Without Forgetting： Mitigating Hallucination in LVLMs via Inter-Layer Visual Attention Discrepancy 上一篇

CYBER-ZERO： Training Cybersecurity Agents without Runtime 下一篇