IN-CONTEXT SHARPNESS AS ALERTS: AN INNER REPRESENTATION PERSPECTIVE FOR HALLUCINATION MITIGATION
(PMLR 2024)
发现
发现 1:激活状态暗示答案的正确性。在生成正确答案时,目标词元(token)在中间层被输入上下文成功“激活”的比例显著高于错误答案 。例如,在 Raw-CFT 数据集中,正确样本的激活率高达 81.29%,而错误样本仅为 24.14% 。
发现 2:正确答案的激活模式更“敏锐”。在模型的中间层(例如 32 层模型中的第 26 层),正确生成的词元对上下文的激活分布非常集中(尖锐),而错误生成的词元激活分布则比较分散 。例如,当问题关于“Fabrizio Spada 去世的地方”,正确答案“Rome”在输入序列上的激活非常敏锐,而错误答案“Manila”的激活则很微弱 。
提出量化指标(上下文熵):为了衡量这种“敏锐度”,作者提出了一种基于信息熵的指标——上下文熵(Contextual Entropy) 。熵值越小,说明激活分布越集中(越敏锐),该词元是事实正确答案的概率就越大 。实验证明,该指标在区分真假答案时的 AUROC 分数可达 0.76 。
方法
作者使用了激活解码 (Activation Decoding)来缓解幻觉。
在模型预测下一个词时,算法会将“上下文熵”作为惩罚项引入 。具体来说,它会鼓励生成那些具有较小上下文熵(即激活更敏锐)的词元,同时抑制那些会增大熵的词元 。
调整后的概率分布公式为 $P(v_{p}|v_{1:p-1})\propto e^{-\lambda E(v_{p},v_{1:t})}P(v_{p}|v_{1:p-1})$ 。其中,E 代表上下文熵,$\lambda$ 是控制熵影响程度的超参数 。
由于只需计算候选词元与给定的“提示词(Prompt)”之间的激活关系(不包括新生成的词元),作者可以在生成前预先计算好词汇表中所有词(如 LLaMA-2 的 32000 个词)的熵向量 。这极大地降低了延迟,使得该方法比另一种基线方法 DoLa 的推理时间缩短了 7.3% 。