RAGLens: Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders

(ICLR 2026)


motivation

现有方法的局限:

  • 基于提示的方法(LLM-as-judge): 依赖外部 LLM 进行判断,推理成本高,且难以检测同模型自身的错误 。
  • 基于训练的检测器: 需要大量标注数据 。
  • 基于内部状态的方法: 虽然利用了隐藏状态,但由于神经元的多义性(Polysemanticity)和隐藏状态的不透明性,准确率往往受限 。

SAE 的机遇: 最近的可解释性研究表明,稀疏自动编码器(SAE)可以将 LLM 的内部激活解耦为单义(Monosemantic)特征,这些特征对应具体的可解释概念 。

方法

特征提取 (Feature Extraction):

对于 LLM 生成的每一个 token,提取其在特定层(Layer L)的隐藏状态 $h_t$ 。

使用预训练的 SAE 编码器 $\mathcal{E}$ 将隐藏状态转化为稀疏特征向量 $z_t \in \mathbb{R}^K$ 。

实例级特征聚合 (Max Pooling):

由于幻觉标签是针对整个生成的(实例级),需要将 token 级的特征聚合。

论文采用**最大池化(Max Pooling)**策略:$\bar{z}k = \max{1 \le t \le T} z_{t,k}$ 。

理论依据: 论文在定理 1 中证明,在稀疏激活机制下,最大池化能够有效放大与幻觉相关的信号,区分噪声 。

基于信息的特征选择 (MI-based Selection):

  • 计算每个特征 $\bar{z}_k$ 与幻觉标签 $l$ 之间的互信息(Mutual Information, MI)
  • 选择 MI 最高的 $K’$ 个特征(实验中通常选前 1000 个),去除无关特征 。

可解释预测 (GAM Classification):

  • 使用**广义加性模型(Generalized Additive Models, GAM)**进行分类预测 。
  • 公式为:$g(\mathbb{E}[l|\tilde{z}]) = \beta_0 + \sum_{j=1}^{K’} f_j(\tilde{z}_j)$。GAM 的优势在于它是可加的,每个特征的贡献是独立的,因此具有极高的可解释性 。

RAGLens: Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders
https://lijianxiong.space/2026/20260208/
作者
LJX
发布于
2026年2月8日
许可协议