S0 Tuning： Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

(arxiv 2026)

motivation

许多先进的大型语言模型开始采用“循环 + 注意力”的混合架构（例如 Qwen3.5 交替使用 GatedDeltaNet 和 Attention 层，FalconH1 平行使用 Mamba-2 和 Attention 层）。这些架构既保留了注意力机制的上下文学习能力，又实现了次二次方（Subquadratic）的序列计算成本。

传统的微调方法（如 LoRA 或 Prefix Tuning）主要是为纯 Transformer 架构设计的，它们通过修改权重矩阵来适配任务。

然而，在混合模型下，出现了一个新的适配面：循环隐藏状态矩阵（Recurrent Hidden State, $S_t$），该矩阵在每个 Token 处更新，积累了整个上下文窗口的分布信息。默认情况下，模型在处理序列前将初始状态设为全零（$S_0 = 0$）。

这篇论文的核心思想就是：用一个可学习的参数矩阵替换这个零矩阵，从而引导模型生成目标任务的答案。

方法

在应用 $S_0$ 之前，我们需要理解不同混合模型中隐藏状态 $S_t$ 是如何更新的：

对于 GatedDeltaNet (例如 Qwen3.5)： 每一层循环层维护一个状态矩阵 $S_t$，其更新规则为：

$$S _ {t}=\alpha _ {t}S _ {t-1}(I-\beta _ {t}k _ {t}k _ {t}^{\top})+\beta _ {t}v _ {t}k _ {t}^{\top}$$

这里 $\alpha_t$ 是衰减门，$\beta_t$ 控制写入强度，$k_t$ 和 $v_t$ 分别代表键和值向量。项 $(I-\beta _ {t}k _ {t}k _ {t}^{\top})$ 用于在写入新关联之前擦除旧的键关联。
对于 Mamba-2 (例如 FalconH1)： 状态更新通过结构化状态空间对偶性（SSD）实现：

$$S _ {t}=\overline{A} _ {t}S _ {t-1}+\overline{B} _ {t}x _ {t}$$

这里 $\overline{A}_t$ 是标量门，$\overline{B}_t$ 是输入投影。在这两种架构中，状态是一个完整的矩阵，而非对角状态，这为编码复杂的交叉特征相关性提供了足够的容量。

$S_0$ Tuning 的具体步骤如下：

初始化：为每个循环层 $l$ 初始化一个与原生状态形状相同的可学习张量 $S_0^{(l)} = 0$ 。
注入状态：在处理第一个 Token 之前，将模型的初始隐藏状态设置为 $\alpha S_0^{(l)}$（$\alpha$ 是针对具体架构的缩放标量，Qwen3.5 为 0.07，FalconH1 为 0.65）。
计算损失与更新：冻结所有主干权重，仅使用目标生成内容的交叉熵损失对 $S_0$ 进行梯度下降优化，并加入 L2 正则化。损失函数定义为：

$$\mathcal{L}(S _ {0})=\frac{1}{N}\sum _ {i=1}^{N}CE(y _ {i}^{comp},f _ {\theta}(x _ {i};\alpha S _ {0}))+\lambda\sum _ {l=1}^{L}||S _ {0}^{(l)}|| _ {2}^{2}$$

该方法具有结构性的零延迟优势：因为 $S_0$ 仅仅在时间步 $t=0$ 时被注入。在 $t=1$ 时，它就已经通过上述的公式被融合进运行时的隐藏状态 $S_1$ 中。在后续的任何时间步中，模型完全执行原始的循环前向传播逻辑，不需要像 LoRA 那样进行权重合并，也不需要执行额外的适配器分支。

为什么有效

论文将其归结为“轨迹引导（Trajectory-Steering）”机制，这与 LoRA 应用的均匀权重修改完全不同。

“发射向量”效应与指数衰减：根据公式推导，$S_0$ 对后续状态的贡献会随着不断乘上衰减门 $\alpha_t$ 而被擦除。实验证实，$S_0$ 对输出 Logits 的直接影响（KL 散度比例）在提示词（Prompt）结束时呈指数级衰减至 0.03% 。当模型开始生成内容时，$S_0$ 已经被压缩为隐藏表征中一种微小但方向一致的“偏置” 。

首字符发散（First-Character Divergence）：这种微小的偏置刚好足以在第一步翻转结果。研究发现，在 27 个被 $S_0$ 成功从“错误”修正为“正确”的代码样本中，有 23 个（85%）在生成的第一个字符（位置 0）就与基线模型产生了分歧。$S_0$ 在第一时间改变了输出分布，随后自回归解码（Autoregressive Decoding）过程放大了这个初始偏移，最终引导模型走上了完全不同、但更为正确的生成轨迹。

有点像《Weak-to-Strong Jailbreaking on Large Language Models》（ICML 2025）等一系列开头对齐的相关论文

#深度学习 #大模型

S0 Tuning： Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

https://lijianxiong.space/2026/20260521/

作者

LJX

发布于

2026年5月21日

许可协议

CYBER-ZERO： Training Cybersecurity Agents without Runtime 上一篇

Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry 下一篇