LLM-VA： Resolving the Jailbreak-Overrefusal Trade-off via Vector Alignment

(arxiv 2026)

Large Language Model Vector Alignment (LLM-VA)

motivation

作者发现，

回答决策 ($v_a$)：模型决定“回答还是拒绝”的方向。
安全判断 ($v_b$)：模型判断输入是“良性还是有毒”的方向。

在模型的潜在空间中，这两个向量几乎是正交的（夹角约为 90°）。

这意味着，模型将“是否回答”和“输入是否安全”视为两个独立的过程。

方法

既然“是否回答”和“输入是否安全”是两个独立的过程。我可以通过将“回答向量”($v_a$) 与“良性向量”($v_b$) 进行对齐，强制模型建立因果关系：只有当通过安全评估（良性）时，才触发回答意愿 。

作者使用SVM在每一层寻找两个超平面：

区分良性/有毒输入的超平面（法向量为 $v_b$）。
区分回答/拒绝行为的超平面（法向量为 $v_a$）。

作者又设计了一个评分机制，选择那些既有影响力（对最终输出贡献大）又准确（SVM 分类准确率高）的层进行修改：
$$
Score^{(l)} = C_a^{(l)} \cdot Acc_a^{(l)} + C_b^{(l)} \cdot Acc_b^{(l)}
$$
影响力：$C_a^{(l)} = v_a^{(fin)} \cdot v_a^{(l)}$

准确率：$Acc_a^{(l)}$

对于任意输入 $x$，我们希望修改后的权重 $W + \Delta$ 满足以下关系：

$$x(W+\Delta)v_a = \frac{\sigma_a}{\sigma_b} x W v_b$$
$$
x \Delta v_a = x (\frac{\sigma_a}{\sigma_b} W v_b - W v_a)
$$
$$\Delta v_a = \frac{\sigma_a}{\sigma_b} W v_b - W v_a$$

根据彭罗斯广义逆（Penrose pseudoinverse），使得权重修改量最小（最小范数解）的 $\Delta$ 为：
$$
\Delta^+ = \left( \frac{\sigma_a}{\sigma_b} W v_b - W v_a \right) v_a^T
$$
最终的权重更新公式为：

$$W’ = W + \Delta^+$$

为了避免后续层的 $v_a$ 和 $v_b$ 发生漂移，还会进行多次迭代。

实验显示约 20-30 次迭代收敛。