TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models
(ICLR 2026)
与自回归模型(AR-LLMs)单次生成不同,D-LLMs 通过 $T$ 步迭代去噪生成文本。TraceDet 将此过程建模为 MDP :
- 状态 ($s_t$):由输入提示词 $p_0$ 和当前中间噪声文本 $r _ {T-t}$ 组成。
- 动作 ($a_t$):模型基于当前状态预测完整去噪文本的尝试。
- 轨迹 ($A$):整个去噪过程形成了一个动作轨迹集合 $A = {a_0, a_1, …, a _ {T-1}}$,其中每个动作代表模型在某一步对最终答案的“猜测” 。
方法
TraceDet 使用信息瓶颈原则来自动学习筛选关键步骤。
目标是找到一个子轨迹 $A _ {sub}$(即筛选后的去噪步骤),使其满足两个条件 :
- 最大化预测能力:$A _ {sub}$ 包含足够的信息来预测最终结果是否为幻觉(标签 $Y$)。
- 最小化冗余信息:$A _ {sub}$ 包含尽可能少的原始轨迹 $A$ 的信息(即去除无关的噪声步骤)。
这通过优化以下拉格朗日目标函数实现:
$$\min _ {f, g} -I(Y; A _ {sub}) + \beta I(A; A _ {sub})$$
其中:
- $A _ {sub} = g(A)$ 是提取的子轨迹。
- $I(\cdot; \cdot)$ 表示互信息(Mutual Information)。
- $\beta$ 是控制权重的超参数。
包括两个重要模块。子实例提取器(Extractor)和子实例预测器(Predictor)。
为了计算效率,TraceDet 并不直接使用高维的 Token 嵌入,而是使用Token 级的熵矩阵作为输入特征 。 输入 $A \in \mathbb{R}^{T \times B \times D}$,其中 $T$ 是时间步,$B$ 是 Batch Size,$D$ 是序列长度。
子实例提取器 ($g_\theta$)
该模块负责生成一个时间掩码(Mask),用于筛选关键步骤。
将熵轨迹 $A$ 加上正弦时间嵌入,输入 Transformer 编码器得到上下文嵌入 $emb$ 。
通过交叉注意力机制(Cross-Attention)和线性层,计算每一步被保留的概率 $\hat{M}$ :
$$\hat{m} _ {t} = \text{Linear}(\text{Attention}(emb, A))$$
为了使离散的掩码选择过程可微(从而可以进行反向传播训练),使用 Gumbel-Softmax 技巧采样得到二值掩码 $M \in {0, 1}^{T}$ 。
然后应用掩码:
$$A _ {sub} = M \odot A$$
这里 $\odot$ 表示逐元素相乘。未被选中的步骤被置零。
子实例预测器 ($f_\phi$)
该模块根据筛选后的轨迹判断是否为幻觉。
将 $A _ {sub}$ 在时间维度上聚合(例如取平均)。
通过一个多层感知机(MLP)输出最终的幻觉概率 :
$$P(\text{Hallucination}) = \text{Sigmoid}(\text{MLP}(\text{Aggregate}(A _ {sub})))$$
损失
为了通过神经网络优化上述信息瓶颈目标,TraceDet 将公式转化为两个可计算的损失项 :
$$\mathcal{L} = \mathcal{L} _ {cls} + \beta \mathcal{L} _ {ext}$$
分类损失 ($\mathcal{L} _ {cls}$)对应于最大化互信息 $I(Y; A _ {sub})$。这是一个标准的二元交叉熵损失(Binary Cross-Entropy Loss),用于训练模型准确预测幻觉标签 $Y$ 。
正则化损失 ($\mathcal{L} _ {ext}$)对应于最小化互信息 $I(A; A _ {sub})$。为了限制模型选择的步骤数量,研究者将其推导为掩码分布与先验分布之间的 KL 散度(KL-Divergence)。
假设先验分布 $Q(A _ {sub})$ 是一个伯努利分布,其参数 $\tau$ 代表我们希望保留的步骤比例(例如只保留 20% 的步骤)。则正则化损失为:
$$\mathcal{L} _ {ext} = \sum _ {i} \left[ p _ {a_i} \log \frac{p _ {a_i}}{\tau} + (1 - p _ {a_i}) \log \frac{1 - p _ {a_i}}{1 - \tau} \right]$$
其中 $p _ {a_i}$ 是模型预测第 $i$ 步被选中的概率。
直观理解:这一项强迫模型生成的掩码概率 $p _ {a_i}$ 接近预设的稀疏度 $\tau$,防止模型“作弊”全选所有步骤,迫使它只挑选最能表征幻觉的那几个关键帧。