S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

(arxiv 2026)


motivation

许多先进的大型语言模型开始采用“循环 + 注意力”的混合架构(例如 Qwen3.5 交替使用 GatedDeltaNet 和 Attention 层,FalconH1 平行使用 Mamba-2 和 Attention 层)。 这些架构既保留了注意力机制的上下文学习能力,又实现了次二次方(Subquadratic)的序列计算成本。

传统的微调方法(如 LoRA 或 Prefix Tuning)主要是为纯 Transformer 架构设计的,它们通过修改权重矩阵来适配任务 。

然而,在混合模型下,出现了一个新的适配面:循环隐藏状态矩阵(Recurrent Hidden State, $S_t$),该矩阵在每个 Token 处更新,积累了整个上下文窗口的分布信息 。默认情况下,模型在处理序列前将初始状态设为全零($S_0 = 0$)。

这篇论文的核心思想就是:用一个可学习的参数矩阵替换这个零矩阵,从而引导模型生成目标任务的答案。

方法

在应用 $S_0$ 之前,我们需要理解不同混合模型中隐藏状态 $S_t$ 是如何更新的:

  • 对于 GatedDeltaNet (例如 Qwen3.5): 每一层循环层维护一个状态矩阵 $S_t$,其更新规则为:

    $$S _ {t}=\alpha _ {t}S _ {t-1}(I-\beta _ {t}k _ {t}k _ {t}^{\top})+\beta _ {t}v _ {t}k _ {t}^{\top}$$

    这里 $\alpha_t$ 是衰减门,$\beta_t$ 控制写入强度,$k_t$ 和 $v_t$ 分别代表键和值向量 。项 $(I-\beta _ {t}k _ {t}k _ {t}^{\top})$ 用于在写入新关联之前擦除旧的键关联 。

  • 对于 Mamba-2 (例如 FalconH1): 状态更新通过结构化状态空间对偶性(SSD)实现:

    $$S _ {t}=\overline{A} _ {t}S _ {t-1}+\overline{B} _ {t}x _ {t}$$

    这里 $\overline{A}_t$ 是标量门,$\overline{B}_t$ 是输入投影 。在这两种架构中,状态是一个完整的矩阵,而非对角状态,这为编码复杂的交叉特征相关性提供了足够的容量 。

$S_0$ Tuning 的具体步骤如下:

  1. 初始化:为每个循环层 $l$ 初始化一个与原生状态形状相同的可学习张量 $S_0^{(l)} = 0$ 。

  2. 注入状态:在处理第一个 Token 之前,将模型的初始隐藏状态设置为 $\alpha S_0^{(l)}$($\alpha$ 是针对具体架构的缩放标量,Qwen3.5 为 0.07,FalconH1 为 0.65)。

  3. 计算损失与更新:冻结所有主干权重,仅使用目标生成内容的交叉熵损失对 $S_0$ 进行梯度下降优化,并加入 L2 正则化 。损失函数定义为:

    $$\mathcal{L}(S _ {0})=\frac{1}{N}\sum _ {i=1}^{N}CE(y _ {i}^{comp},f _ {\theta}(x _ {i};\alpha S _ {0}))+\lambda\sum _ {l=1}^{L}||S _ {0}^{(l)}|| _ {2}^{2}$$

该方法具有结构性的零延迟优势:因为 $S_0$ 仅仅在时间步 $t=0$ 时被注入。在 $t=1$ 时,它就已经通过上述的公式被融合进运行时的隐藏状态 $S_1$ 中 。在后续的任何时间步中,模型完全执行原始的循环前向传播逻辑,不需要像 LoRA 那样进行权重合并,也不需要执行额外的适配器分支。

为什么有效

论文将其归结为“轨迹引导(Trajectory-Steering)”机制,这与 LoRA 应用的均匀权重修改完全不同 。

“发射向量”效应与指数衰减: 根据公式推导,$S_0$ 对后续状态的贡献会随着不断乘上衰减门 $\alpha_t$ 而被擦除。实验证实,$S_0$ 对输出 Logits 的直接影响(KL 散度比例)在提示词(Prompt)结束时呈指数级衰减至 0.03% 。当模型开始生成内容时,$S_0$ 已经被压缩为隐藏表征中一种微小但方向一致的“偏置” 。

首字符发散(First-Character Divergence): 这种微小的偏置刚好足以在第一步翻转结果。研究发现,在 27 个被 $S_0$ 成功从“错误”修正为“正确”的代码样本中,有 23 个(85%)在生成的第一个字符(位置 0)就与基线模型产生了分歧 。$S_0$ 在第一时间改变了输出分布,随后自回归解码(Autoregressive Decoding)过程放大了这个初始偏移,最终引导模型走上了完全不同、但更为正确的生成轨迹 。

有点像《Weak-to-Strong Jailbreaking on Large Language Models》(ICML 2025)等一系列开头对齐的相关论文


S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models
https://lijianxiong.space/2026/20260521/
作者
LJX
发布于
2026年5月21日
许可协议