CAN HETEROGENEOUS LANGUAGE MODELS BE FUSED?

(arxiv 2026)

为什么异构模型难以融合?

传统的模型融合技术(Model Merging)在同构模型(基于相同预训练基座、具有相同架构)上取得了巨大成功,但在开放的模型生态中,往往需要结合不同家族的优秀模型 。直接在权重空间对异构模型进行融合会面临三个根本性挑战:

拓扑结构不匹配 (Topology Mismatch): 不同家族的模型在层数、隐藏层维度、注意力机制参数化和 MLP 结构上存在差异,直接进行参数算术运算毫无意义 。

潜在基底未对齐 (Latent Basis Misalignment): 即使是功能相似的模块,它们的低秩适配器(LoRA)也可能在不同的坐标系中表示,导致直接迁移不稳定 。

跨源冲突放大 (Cross-source Conflict Amplification): 当融合多个异构专家时,特定架构的特征和噪声信号会叠加而非抵消,从而淹没有用的信号 。

这篇论文实际上是对LORA间接融合,而非直接对模型融合。

方法

假设有一个目标模型,其低秩适配器(LoRA)的参数为 $\Theta _ {t}={A _ {t},B _ {t}}$;同时有一组来自不同架构的源模型专家池 ${\Theta _ {s}^{k}={A _ {s}^{k},B _ {s}^{k}}} _ {k=1}^{K}$ 。

传统的 LoRA 更新可以表示为 $\Delta W=BA$。在这之中,矩阵 $A$ 定义了任务所在的几何基底(特征提取方向),而矩阵 $B$ 决定了如何组合这些特征

如果直接用异构专家的信号同时修改 $A$ 和 $B$,会破坏目标模型原有的任务坐标系,导致灾难性干扰 。因此,HeteroFusion 的核心设计是严格冻结目标模型的 $A$ 矩阵,只预测结构化的 $\Delta B$ 来更新 $B$ 矩阵

对于具有相同功能角色和秩的模块组(记为 $g$),其更新公式如下:

$$B _ {t}^{g\prime}=B _ {t}^{g}+\alpha _ {g}\Delta B _ {g}$$

$${A _ {t}^{g}}^{\prime}=A _ {t}^{g}$$

其中,$\Delta B _ {g}$是由迁移网络预测出的更新量,$\alpha _ {g}$ 是一个可学习的缩放因子。

这种设计保证了无论引入多少异构知识,它们都只能在目标模型原有的“基底”上进行线性组合,从而在数学上保证了迁移的稳定性。扰动上限可由下式证明 :

$$||\Delta W _ {t}^{g\prime}-\Delta W _ {t}^{g}|| _ {F}=||\alpha _ {g}\Delta B _ {g}A _ {t}^{g}|| _ {F}\le|\alpha _ {g}||\Delta B _ {g}|| _ {F}||A _ {t}^{g}|| _ {2}$$

这说明一旦 $A _ {t}^{g}$ 固定,干预的幅度就被 $\alpha _ {g}$ 和 $\Delta B _ {g}$ 明确控制了 。

拓扑对齐

这一步解决的是“维度不同、架构不同怎么对应”的问题。

构建上下文与特征提取: 模型首先通过尾部对齐(Tail-align)等策略,在功能上匹配目标模型和源模型的层和模块 。为了消除不同架构绝对维度的影响,模型提取权重矩阵的行视图(Row View)和列视图(Column View),它们能保留矩阵的局部结构统计信息,且对维度变化具有鲁棒性 。

跨注意力超网络 (Cross-Attention HyperNet): 提取出的特征在经过降噪(见下文)后,分别变为目标嵌入 $z _ {t}^{g}$ 和源嵌入 $Z _ {s}^{g}$ 。随后,它们进入一个多头跨注意力网络进行信息融合 。在这里,目标嵌入作为 Query,拼接后的多源嵌入作为 Key 和 Value :

$$H^{g}=MHA(z _ {t}^{g}+E _ {pos},Z _ {s}^{g}+E _ {pos},Z _ {s}^{g}+E _ {pos})$$

解码器基于融合后的特征 $H^{g}$ 输出块级变化量,并截取其中对应 $B$ 矩阵的部分作为最终的 $\Delta B _ {g}$ :

$$\Delta B _ {g}=Slice _ {B}(Dec(H^{g}))$$

冲突感知降噪

异构专家自带强烈的基座偏见(Base-model Bias),这会带来严重的噪声 。在进入跨注意力网络之前,必须进行降噪。

SVD 引导的稀疏门控 (SVD-guided Sparse Gate): 模型计算参数块的奇异值 $s$,并利用一个带偏移量 $\mu _ {gate}$ 的多层感知机(MLP)生成门控信号 $g$ :

$$g=clip(ReLU(MLP(s)+\mu _ {gate}),0,1)$$

$$z=LN((f _ {row}+f _ {col})\odot g)$$

这个门控机制类似于一种“频谱软阈值”,能够过滤掉那些由架构差异主导的噪声通道,只保留具有可迁移性的低秩结构 。

修正分布匹配 (Rectified Distribution Matching, RDM): 由于源模型结构差异大,融合时潜在空间的分布容易碎片化(导致无法有效算注意力) 。作者引入了 RDM 损失函数,强制这些隐藏层特征 $z$ 匹配到一个标准的高斯先验分布 $y\sim\mathcal{N}(\mu _ {target},\sigma _ {target}^{2})$ 。这使用了基于切片 Wasserstein 距离的替代方案 :

$$\mathcal{L} _ {rdm}(z)=MSE(sort(P\cdot ReLU(z)),sort(P\cdot ReLU(y)))$$

其中 $P$ 是随机投影矩阵 。这保证了特征流形足够平滑和稳定 。

一维空间中计算两个经验分布的 Wasserstein-2 距离有一个极简的闭式解(Closed-form solution):只需要将两组一维数据点分别从小到大排序 (sort),然后计算对应位置元素之间的均方误差 (MSE) 即可 。

证明:

假设我们有两个一维经验分布,它们分别由 $n$ 个数据点组成:

  • 集合 $X = {x_1, x_2, \dots, x_n}$
  • 集合 $Y = {y_1, y_2, \dots, y_n}$

由于它们是离散的经验分布,每个数据点的权重相等(均为 $\frac{1}{n}$)。Wasserstein 距离(即最优传输问题)的核心目的,是寻找一种映射关系(配对方式),使得将集合 $X$ 搬运到集合 $Y$ 的总代价最小。

在数学上,因为两组点数量相等,这种配对可以表示为一个对索引 ${1, 2, \dots, n}$ 的排列 (Permutation),记作 $\sigma$。也就是说,我们将 $x_i$ 搬运到 $y _ {\sigma(i)}$。

Wasserstein-2 距离的平方(即最优传输代价)定义为所有可能排列中,欧式距离平方和的最小值:

$$W_2^2(X, Y) = \min _ {\sigma} \frac{1}{n} \sum _ {i=1}^n (x_i - y _ {\sigma(i)})^2$$

我们将求和公式内部的平方项展开:

$$(x_i - y _ {\sigma(i)})^2 = x_i^2 - 2x_i y _ {\sigma(i)} + y _ {\sigma(i)}^2$$

把求和符号放进去,代价函数可以写成:

$$\sum _ {i=1}^n (x_i - y _ {\sigma(i)})^2 = \sum _ {i=1}^n x_i^2 - 2 \sum _ {i=1}^n x_i y _ {\sigma(i)} + \sum _ {i=1}^n y _ {\sigma(i)}^2$$

第一项 $\sum _ {i=1}^n x_i^2$ 是集合 $X$ 中所有元素的平方和,这是一个常数,与排列 $\sigma$ 无关。

第三项 $\sum _ {i=1}^n y _ {\sigma(i)}^2$ 同样是一个常数

因此,要使得总代价 $\sum _ {i=1}^n (x_i - y _ {\sigma(i)})^2$ 最小,我们只需要让中间那个被减去的交叉项 $\sum _ {i=1}^n x_i y _ {\sigma(i)}$ 最大

这就把最优传输问题转化为了一个最大化点积的问题:

$$\text{目标:寻找排列 } \sigma \text{,使得 } \sum _ {i=1}^n x_i y _ {\sigma(i)} \text{ 最大化。}$$

排序不等式告诉我们:

对于两组实数,如果我们将它们分别从小到大排序,使得:

$$x _ {(1)} \le x _ {(2)} \le \dots \le x _ {(n)}$$

$$y _ {(1)} \le y _ {(2)} \le \dots \le y _ {(n)}$$

(注:带括号的下标 $(i)$ 表示排序后的第 $i$ 个元素)

那么,两组数两两相乘的求和,存在以下规律:

  • 反序和最小: 大配小,小配大。
  • 乱序和居中: 随机配对。
  • 同序和最大: 大配大,小配小。即 $\sum _ {i=1}^n x _ {(i)} y _ {(i)}$ 是所有可能排列中最大的。

为了最小化 Wasserstein-2 距离,我们需要最大化 $\sum _ {i=1}^n x_i y _ {\sigma(i)}$。

根据排序不等式,要使这个乘积之和最大,最优的映射策略 $\sigma^\ast$ 就是**“同序配对”**:

让 $X$ 中最小的元素去匹配 $Y$ 中最小的元素,次小的匹配次小的,最大的匹配最大的。

因此,最优传输代价(即 $W_2^2$ 距离)就是:

$$W_2^2(X, Y) = \frac{1}{n} \sum _ {i=1}^n (x _ {(i)} - y _ {(i)})^2$$

补充:更高维度的普适视角(逆 CDF 公式)

从概率论的角度来看,一维空间中两个连续概率分布 $\mu$ 和 $\nu$ 的 Wasserstein-p 距离有一个普适的解析解:

$$W_p^p(\mu, \nu) = \int_0^1 |F_\mu^{-1}(t) - F_\nu^{-1}(t)|^p dt$$

其中 $F^{-1}(t)$ 是分布的累积分布函数 (CDF) 的逆函数(即分位数函数 Quantile Function)。

对于由 $n$ 个离散点组成的经验分布,其 CDF 是一个阶梯函数。当你计算它们的逆 CDF 的积分时,积分区间被等分为 $n$ 份,每一份刚好对应排序后的一个数据点。积分的离散化结果,精确等同于对排序后的数组求均方误差 (MSE)。

动态补丁与优化

为了不破坏目标模型原本的适配器参数,训练过程采用了动态补丁(Dynamic Patching)机制。

在每次前向传播时,模型利用少量的混合回放数据(Mixed replay data),临时将目标 $B$ 矩阵替换为 $B _ {t}^{g}+\alpha _ {g}\Delta B _ {g}$ 来计算语言建模损失(Language Modeling Loss),并在反向传播后立刻恢复原权重 。

最终优化的总损失函数结合了语言建模损失 $\mathcal{L} _ {lm}$ 和双向的特征正则化损失 $\mathcal{L} _ {rdm}$ :

$$min _ {\{\alpha _ {g},\phi\}}\mathcal{L} _ {lm}(\mathcal{D})+\lambda _ {reg}\frac{1}{G}\sum _ {g=1}^{G}(\mathcal{L} _ {rdm}(z _ {t}^{g})+\mathcal{L} _ {rdm}(Z _ {s}^{g}))$$

其中,$\phi$ 代表迁移网络的所有参数,$G$ 是激活的模块组数量 。训练完成后,只需再跑一次网络输出 $\Delta B _ {g}$,即可永久注入模型,生成最终的融合权重 。


CAN HETEROGENEOUS LANGUAGE MODELS BE FUSED?
https://lijianxiong.space/2026/20260412/
作者
LJX
发布于
2026年4月12日
许可协议