AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint
(ICLR 2026)
之前看alphaedit和nullu就有过将二者融合起来。没想到已经有人做了。
motivation
激活引导 (Activation Steering)是比较流行的防御方法。即$h=h+\lambda r$。
然而这些方法使用固定的拒绝向量 $r$(即 $h’ \leftarrow h + \lambda r$),这会导致对良性(Benign)提示的误伤。
方法
AlphaSteer 将这一过程改进为一个可学习的线性变换过程。它引入了一个变换矩阵 $\Delta$,根据输入激活值的不同动态构建引导向量。
即$h^{(l)’} \leftarrow h^{(l)} + \lambda \Delta^{(l)} h^{(l)}$。
同alphaedit一样,$\Delta$ 有两个效果:
- 对良性提示,引导向量应接近 $\mathbf{0}$。
- 对恶意提示,引导向量应指向拒绝方向 $r$。
对于包含 $N_b$ 个良性提示激活值的矩阵 $H_b \in \mathbb{R}^{d \times N_b}$,我们需要满足 $\Delta H_b = \mathbf{0}$。
为了满足上述约束,作者将 $\Delta$ 分解为 $\Delta = \bar{\Delta} \hat{P}$,其中 $\hat{P}$ 是投影到 $H_b$ 零空间的投影矩阵 。
由于直接对高维且样本量大的 $H_b$ 进行计算非常耗时,论文利用了PCA等算法常用的性质:$H_b$ 的零空间等价于其非中心协方差矩阵 $H_b H_b^T$ 的零空间 。
因此,计算过程如下:
奇异值分解 (SVD):对协方差矩阵进行分解 :
1.$$H_b H_b^T = U \Lambda U^T$$
其中 $U$ 是特征向量矩阵,$\Lambda$ 是特征值对角矩阵。
2.选取对应于零特征值(或最小的 $p%$ 特征值)的 $r$ 个特征向量,组成矩阵 $\hat{U} \in \mathbb{R}^{d \times r}$ 。
3.计算投影矩阵 :
$$\hat{P} = \hat{U} \hat{U}^T$$
这样构建的 $\hat{P}$ 保证了 $\hat{P} H_b = \mathbf{0}$。
我们有$\bar{\Delta} \hat{P} H_b = 0$,那么下一步就是要处理恶意提示。我们希望,$\bar{\Delta} \hat{P} H_m \approx R$。
可以转换为一个最小二乘问题(并加上正则项):
$$
\bar{\Delta}^* = \underset{\bar{\Delta}}{\arg\min} \left( || \bar{\Delta} \hat{P} H_m - R ||_F^2 + \alpha || \bar{\Delta} \hat{P} ||_F^2 \right)
$$
有闭式解:
$$\bar{\Delta}^* = R H_m^T \hat{P}^T (\hat{P} H_m H_m^T \hat{P}^T + \alpha \hat{P} \hat{P}^T)^{\dagger}$$
故最终$h’ \leftarrow h + \lambda \bar{\Delta}^* \hat{P} h$。