TraceDet： Hallucination Detection from the Decoding Trace of Diffusion Large Language Models

（ICLR 2026）

与自回归模型（AR-LLMs）单次生成不同，D-LLMs 通过 $T$ 步迭代去噪生成文本。TraceDet 将此过程建模为 MDP ：

状态 ($s_t$)：由输入提示词 $p_0$ 和当前中间噪声文本 $r _ {T-t}$ 组成。
动作 ($a_t$)：模型基于当前状态预测完整去噪文本的尝试。
轨迹 ($A$)：整个去噪过程形成了一个动作轨迹集合 $A = {a_0, a_1, …, a _ {T-1}}$，其中每个动作代表模型在某一步对最终答案的“猜测” 。

方法

TraceDet 使用信息瓶颈原则来自动学习筛选关键步骤。

目标是找到一个子轨迹 $A _ {sub}$（即筛选后的去噪步骤），使其满足两个条件：

这通过优化以下拉格朗日目标函数实现：

$$\min _ {f, g} -I(Y; A _ {sub}) + \beta I(A; A _ {sub})$$

其中：

包括两个重要模块。子实例提取器（Extractor）和子实例预测器（Predictor）。

为了计算效率，TraceDet 并不直接使用高维的 Token 嵌入，而是使用Token 级的熵矩阵作为输入特征。输入 $A \in \mathbb{R}^{T \times B \times D}$，其中 $T$ 是时间步，$B$ 是 Batch Size，$D$ 是序列长度。

该模块负责生成一个时间掩码（Mask），用于筛选关键步骤。

将熵轨迹 $A$ 加上正弦时间嵌入，输入 Transformer 编码器得到上下文嵌入 $emb$ 。

通过交叉注意力机制（Cross-Attention）和线性层，计算每一步被保留的概率 $\hat{M}$ ：

$$\hat{m} _ {t} = \text{Linear}(\text{Attention}(emb, A))$$

为了使离散的掩码选择过程可微（从而可以进行反向传播训练），使用 Gumbel-Softmax 技巧采样得到二值掩码 $M \in {0, 1}^{T}$ 。

然后应用掩码：

$$A _ {sub} = M \odot A$$

这里 $\odot$ 表示逐元素相乘。未被选中的步骤被置零。

该模块根据筛选后的轨迹判断是否为幻觉。

将 $A _ {sub}$ 在时间维度上聚合（例如取平均）。

通过一个多层感知机（MLP）输出最终的幻觉概率：

$$P(\text{Hallucination}) = \text{Sigmoid}(\text{MLP}(\text{Aggregate}(A _ {sub})))$$

为了通过神经网络优化上述信息瓶颈目标，TraceDet 将公式转化为两个可计算的损失项：

$$\mathcal{L} = \mathcal{L} _ {cls} + \beta \mathcal{L} _ {ext}$$

分类损失 ($\mathcal{L} _ {cls}$)对应于最大化互信息 $I(Y; A _ {sub})$。这是一个标准的二元交叉熵损失（Binary Cross-Entropy Loss），用于训练模型准确预测幻觉标签 $Y$ 。

正则化损失 ($\mathcal{L} _ {ext}$)对应于最小化互信息 $I(A; A _ {sub})$。为了限制模型选择的步骤数量，研究者将其推导为掩码分布与先验分布之间的 KL 散度（KL-Divergence）。

假设先验分布 $Q(A _ {sub})$ 是一个伯努利分布，其参数 $\tau$ 代表我们希望保留的步骤比例（例如只保留 20% 的步骤）。则正则化损失为：

$$\mathcal{L} _ {ext} = \sum _ {i} \left[ p _ {a_i} \log \frac{p _ {a_i}}{\tau} + (1 - p _ {a_i}) \log \frac{1 - p _ {a_i}}{1 - \tau} \right]$$

其中 $p _ {a_i}$ 是模型预测第 $i$ 步被选中的概率。

直观理解：这一项强迫模型生成的掩码概率 $p _ {a_i}$ 接近预设的稀疏度 $\tau$，防止模型“作弊”全选所有步骤，迫使它只挑选最能表征幻觉的那几个关键帧。

#深度学习 #大模型

TraceDet： Hallucination Detection from the Decoding Trace of Diffusion Large Language Models

https://lijianxiong.space/2026/20260209-1/

作者

LJX

发布于

2026年2月9日

许可协议