AlphaSteer： Learning Refusal Steering with Principled Null-Space Constraint

（ICLR 2026）

之前看alphaedit和nullu就有过将二者融合起来。没想到已经有人做了。

motivation

激活引导 (Activation Steering)是比较流行的防御方法。即$h=h+\lambda r$。

然而这些方法使用固定的拒绝向量 $r$（即 $h’ \leftarrow h + \lambda r$），这会导致对良性（Benign）提示的误伤。

方法

AlphaSteer 将这一过程改进为一个可学习的线性变换过程。它引入了一个变换矩阵 $\Delta$，根据输入激活值的不同动态构建引导向量。

即$h^{(l)’} \leftarrow h^{(l)} + \lambda \Delta^{(l)} h^{(l)}$。

同alphaedit一样，$\Delta$ 有两个效果：

对良性提示，引导向量应接近 $\mathbf{0}$。
对恶意提示，引导向量应指向拒绝方向 $r$。

对于包含 $N_b$ 个良性提示激活值的矩阵 $H_b \in \mathbb{R}^{d \times N_b}$，我们需要满足 $\Delta H_b = \mathbf{0}$。

为了满足上述约束，作者将 $\Delta$ 分解为 $\Delta = \bar{\Delta} \hat{P}$，其中 $\hat{P}$ 是投影到 $H_b$ 零空间的投影矩阵。

由于直接对高维且样本量大的 $H_b$ 进行计算非常耗时，论文利用了PCA等算法常用的性质：$H_b$ 的零空间等价于其非中心协方差矩阵 $H_b H_b^T$ 的零空间。

因此，计算过程如下：

奇异值分解 (SVD)：对协方差矩阵进行分解：

1.$$H_b H_b^T = U \Lambda U^T$$

其中 $U$ 是特征向量矩阵，$\Lambda$ 是特征值对角矩阵。

2.选取对应于零特征值（或最小的 $p%$ 特征值）的 $r$ 个特征向量，组成矩阵 $\hat{U} \in \mathbb{R}^{d \times r}$ 。

3.计算投影矩阵：

$$\hat{P} = \hat{U} \hat{U}^T$$

这样构建的 $\hat{P}$ 保证了 $\hat{P} H_b = \mathbf{0}$。

我们有$\bar{\Delta} \hat{P} H_b = 0$，那么下一步就是要处理恶意提示。我们希望，$\bar{\Delta} \hat{P} H_m \approx R$。

可以转换为一个最小二乘问题（并加上正则项）：
$$
\bar{\Delta}^* = \underset{\bar{\Delta}}{\arg\min} \left( || \bar{\Delta} \hat{P} H_m - R ||_F^2 + \alpha || \bar{\Delta} \hat{P} ||_F^2 \right)
$$
有闭式解：

$$\bar{\Delta}^* = R H_m^T \hat{P}^T (\hat{P} H_m H_m^T \hat{P}^T + \alpha \hat{P} \hat{P}^T)^{\dagger}$$

故最终$h’ \leftarrow h + \lambda \bar{\Delta}^* \hat{P} h$。

#深度学习 #大模型

AlphaSteer： Learning Refusal Steering with Principled Null-Space Constraint

https://lijianxiong.space/2026/20260206/

作者

LJX

发布于

2026年2月6日

许可协议

LLM-VA： Resolving the Jailbreak-Overrefusal Trade-off via Vector Alignment 上一篇

FRAUDAR： Bounding Graph Fraud in the Face of Camouflage 下一篇