RAGLens： Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders

（ICLR 2026）

motivation

现有方法的局限：

SAE 的机遇： 最近的可解释性研究表明，稀疏自动编码器（SAE）可以将 LLM 的内部激活解耦为单义（Monosemantic）特征，这些特征对应具体的可解释概念。

特征提取 (Feature Extraction):

对于 LLM 生成的每一个 token，提取其在特定层（Layer L）的隐藏状态 $h_t$ 。

使用预训练的 SAE 编码器 $\mathcal{E}$ 将隐藏状态转化为稀疏特征向量 $z_t \in \mathbb{R}^K$ 。

实例级特征聚合 (Max Pooling):

由于幻觉标签是针对整个生成的（实例级），需要将 token 级的特征聚合。

论文采用**最大池化（Max Pooling）**策略：$\bar{z}k = \max{1 \le t \le T} z_{t,k}$ 。

理论依据： 论文在定理 1 中证明，在稀疏激活机制下，最大池化能够有效放大与幻觉相关的信号，区分噪声。

基于信息的特征选择 (MI-based Selection):

可解释预测 (GAM Classification):

使用**广义加性模型（Generalized Additive Models, GAM）**进行分类预测。
公式为：$g(\mathbb{E}[l|\tilde{z}]) = \beta_0 + \sum_{j=1}^{K’} f_j(\tilde{z}_j)$。GAM 的优势在于它是可加的，每个特征的贡献是独立的，因此具有极高的可解释性。

#深度学习 #大模型 #RAG

RAGLens： Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders

https://lijianxiong.space/2026/20260208/

作者

LJX

发布于

2026年2月8日

许可协议