Learning to Reason in 13 Parameters

（arxiv 2026）

LoRA是W‘=W+AB，其中$A \in \mathbb{R}^{d \times r}$，$B \in \mathbb{R}^{r \times k}$，故参数量为$\mathcal{O}(dr)$。

而LoRA-XS变为$W’ = W + U \Sigma R V^\top$，参数量为$\mathcal{O}(r^2)$。这可
以看作是学习重新组合 W 的主导奇异方向。

而本文的tiny-LoRA进一步变为$W’ = W + U\Sigma (\sum_{i=1}^{u} v_i P_i) V^\top$。

其中：

这种极低参数量的方法在**监督微调（SFT）中表现不佳，但在强化学习（RL）**中非常有效。

信息密度假设： 作者认为 SFT 需要模型吸收大量关于“具体回答是什么”的信息（包含噪声），因此需要较大的容量。
RL 的稀疏性： RL（特别是带有验证奖励的 RL）只需要学习一个使得奖励最大化的“方向”或“风格”（例如生成更长的思维链），这种信号更稀疏且清晰，因此可以通过极少的参数（即调整 hidden states 的主要奇异值方向）来实现。

#深度学习 #大模型

Learning to Reason in 13 Parameters

https://lijianxiong.space/2026/20260215/

作者

LJX

发布于

2026年2月15日

许可协议