CAN HETEROGENEOUS LANGUAGE MODELS BE FUSED?

（arxiv 2026）

为什么异构模型难以融合？

传统的模型融合技术（Model Merging）在同构模型（基于相同预训练基座、具有相同架构）上取得了巨大成功，但在开放的模型生态中，往往需要结合不同家族的优秀模型。直接在权重空间对异构模型进行融合会面临三个根本性挑战：

拓扑结构不匹配 (Topology Mismatch)： 不同家族的模型在层数、隐藏层维度、注意力机制参数化和 MLP 结构上存在差异，直接进行参数算术运算毫无意义。

潜在基底未对齐 (Latent Basis Misalignment)： 即使是功能相似的模块，它们的低秩适配器（LoRA）也可能在不同的坐标系中表示，导致直接迁移不稳定。

跨源冲突放大 (Cross-source Conflict Amplification)： 当融合多个异构专家时，特定架构的特征和噪声信号会叠加而非抵消，从而淹没有用的信号。

这篇论文实际上是对LORA间接融合，而非直接对模型融合。

方法

假设有一个目标模型，其低秩适配器（LoRA）的参数为 $\Theta _ {t}={A _ {t},B _ {t}}$；同时有一组来自不同架构的源模型专家池 ${\Theta _ {s}^{k}={A _ {s}^{k},B _ {s}^{k}}} _ {k=1}^{K}$ 。

传统的 LoRA 更新可以表示为 $\Delta W=BA$。在这之中，矩阵 $A$ 定义了任务所在的几何基底（特征提取方向），而矩阵 $B$ 决定了如何组合这些特征 。

如果直接用异构专家的信号同时修改 $A$ 和 $B$，会破坏目标模型原有的任务坐标系，导致灾难性干扰。因此，HeteroFusion 的核心设计是严格冻结目标模型的 $A$ 矩阵，只预测结构化的 $\Delta B$ 来更新 $B$ 矩阵 。

对于具有相同功能角色和秩的模块组（记为 $g$），其更新公式如下：

$$B _ {t}^{g\prime}=B _ {t}^{g}+\alpha _ {g}\Delta B _ {g}$$

$${A _ {t}^{g}}^{\prime}=A _ {t}^{g}$$

其中，$\Delta B _ {g}$是由迁移网络预测出的更新量，$\alpha _ {g}$ 是一个可学习的缩放因子。

这种设计保证了无论引入多少异构知识，它们都只能在目标模型原有的“基底”上进行线性组合，从而在数学上保证了迁移的稳定性。扰动上限可由下式证明：

$$||\Delta W _ {t}^{g\prime}-\Delta W _ {t}^{g}|| _ {F}=||\alpha _ {g}\Delta B _ {g}A _ {t}^{g}|| _ {F}\le|\alpha _ {g}||\Delta B _ {g}|| _ {F}||A _ {t}^{g}|| _ {2}$$

这说明一旦 $A _ {t}^{g}$ 固定，干预的幅度就被 $\alpha _ {g}$ 和 $\Delta B _ {g}$ 明确控制了。

拓扑对齐

这一步解决的是“维度不同、架构不同怎么对应”的问题。

构建上下文与特征提取： 模型首先通过尾部对齐（Tail-align）等策略，在功能上匹配目标模型和源模型的层和模块。为了消除不同架构绝对维度的影响，模型提取权重矩阵的行视图（Row View）和列视图（Column View），它们能保留矩阵的局部结构统计信息，且对维度变化具有鲁棒性。

跨注意力超网络 (Cross-Attention HyperNet)： 提取出的特征在经过降噪（见下文）后，分别变为目标嵌入 $z _ {t}^{g}$ 和源嵌入 $Z _ {s}^{g}$ 。随后，它们进入一个多头跨注意力网络进行信息融合。在这里，目标嵌入作为 Query，拼接后的多源嵌入作为 Key 和 Value ：

$$H^{g}=MHA(z _ {t}^{g}+E _ {pos},Z _ {s}^{g}+E _ {pos},Z _ {s}^{g}+E _ {pos})$$

解码器基于融合后的特征 $H^{g}$ 输出块级变化量，并截取其中对应 $B$ 矩阵的部分作为最终的 $\Delta B _ {g}$ ：

$$\Delta B _ {g}=Slice _ {B}(Dec(H^{g}))$$

冲突感知降噪

异构专家自带强烈的基座偏见（Base-model Bias），这会带来严重的噪声。在进入跨注意力网络之前，必须进行降噪。

SVD 引导的稀疏门控 (SVD-guided Sparse Gate)： 模型计算参数块的奇异值 $s$，并利用一个带偏移量 $\mu _ {gate}$ 的多层感知机（MLP）生成门控信号 $g$ ：

$$g=clip(ReLU(MLP(s)+\mu _ {gate}),0,1)$$

$$z=LN((f _ {row}+f _ {col})\odot g)$$

这个门控机制类似于一种“频谱软阈值”，能够过滤掉那些由架构差异主导的噪声通道，只保留具有可迁移性的低秩结构。

修正分布匹配 (Rectified Distribution Matching, RDM)： 由于源模型结构差异大，融合时潜在空间的分布容易碎片化（导致无法有效算注意力）。作者引入了 RDM 损失函数，强制这些隐藏层特征 $z$ 匹配到一个标准的高斯先验分布 $y\sim\mathcal{N}(\mu _ {target},\sigma _ {target}^{2})$ 。这使用了基于切片 Wasserstein 距离的替代方案：

$$\mathcal{L} _ {rdm}(z)=MSE(sort(P\cdot ReLU(z)),sort(P\cdot ReLU(y)))$$

其中 $P$ 是随机投影矩阵。这保证了特征流形足够平滑和稳定。

一维空间中计算两个经验分布的 Wasserstein-2 距离有一个极简的闭式解（Closed-form solution）：只需要将两组一维数据点分别从小到大排序 (sort)，然后计算对应位置元素之间的均方误差 (MSE) 即可。

证明：

假设我们有两个一维经验分布，它们分别由 $n$ 个数据点组成：

集合 $X = {x_1, x_2, \dots, x_n}$

集合 $Y = {y_1, y_2, \dots, y_n}$

由于它们是离散的经验分布，每个数据点的权重相等（均为 $\frac{1}{n}$）。Wasserstein 距离（即最优传输问题）的核心目的，是寻找一种映射关系（配对方式），使得将集合 $X$ 搬运到集合 $Y$ 的总代价最小。

在数学上，因为两组点数量相等，这种配对可以表示为一个对索引 ${1, 2, \dots, n}$ 的排列 (Permutation)，记作 $\sigma$。也就是说，我们将 $x_i$ 搬运到 $y _ {\sigma(i)}$。

Wasserstein-2 距离的平方（即最优传输代价）定义为所有可能排列中，欧式距离平方和的最小值：

$$W_2^2(X, Y) = \min _ {\sigma} \frac{1}{n} \sum _ {i=1}^n (x_i - y _ {\sigma(i)})^2$$

我们将求和公式内部的平方项展开：

$$(x_i - y _ {\sigma(i)})^2 = x_i^2 - 2x_i y _ {\sigma(i)} + y _ {\sigma(i)}^2$$

把求和符号放进去，代价函数可以写成：

$$\sum _ {i=1}^n (x_i - y _ {\sigma(i)})^2 = \sum _ {i=1}^n x_i^2 - 2 \sum _ {i=1}^n x_i y _ {\sigma(i)} + \sum _ {i=1}^n y _ {\sigma(i)}^2$$

第一项 $\sum _ {i=1}^n x_i^2$ 是集合 $X$ 中所有元素的平方和，这是一个常数，与排列 $\sigma$ 无关。

第三项 $\sum _ {i=1}^n y _ {\sigma(i)}^2$ 同样是一个常数。

因此，要使得总代价 $\sum _ {i=1}^n (x_i - y _ {\sigma(i)})^2$ 最小，我们只需要让中间那个被减去的交叉项 $\sum _ {i=1}^n x_i y _ {\sigma(i)}$ 最大。

这就把最优传输问题转化为了一个最大化点积的问题：

$$\text{目标：寻找排列 } \sigma \text{，使得 } \sum _ {i=1}^n x_i y _ {\sigma(i)} \text{ 最大化。}$$

排序不等式告诉我们：

对于两组实数，如果我们将它们分别从小到大排序，使得：

$$x _ {(1)} \le x _ {(2)} \le \dots \le x _ {(n)}$$

$$y _ {(1)} \le y _ {(2)} \le \dots \le y _ {(n)}$$

（注：带括号的下标 $(i)$ 表示排序后的第 $i$ 个元素）

那么，两组数两两相乘的求和，存在以下规律：

反序和最小： 大配小，小配大。

乱序和居中： 随机配对。

同序和最大： 大配大，小配小。即 $\sum _ {i=1}^n x _ {(i)} y _ {(i)}$ 是所有可能排列中最大的。

为了最小化 Wasserstein-2 距离，我们需要最大化 $\sum _ {i=1}^n x_i y _ {\sigma(i)}$。

根据排序不等式，要使这个乘积之和最大，最优的映射策略 $\sigma^\ast$ 就是**“同序配对”**：

让 $X$ 中最小的元素去匹配 $Y$ 中最小的元素，次小的匹配次小的，最大的匹配最大的。

因此，最优传输代价（即 $W_2^2$ 距离）就是：

$$W_2^2(X, Y) = \frac{1}{n} \sum _ {i=1}^n (x _ {(i)} - y _ {(i)})^2$$

补充：更高维度的普适视角（逆 CDF 公式）

从概率论的角度来看，一维空间中两个连续概率分布 $\mu$ 和 $\nu$ 的 Wasserstein-p 距离有一个普适的解析解：

$$W_p^p(\mu, \nu) = \int_0^1 |F_\mu^{-1}(t) - F_\nu^{-1}(t)|^p dt$$

其中 $F^{-1}(t)$ 是分布的累积分布函数 (CDF) 的逆函数（即分位数函数 Quantile Function）。

对于由 $n$ 个离散点组成的经验分布，其 CDF 是一个阶梯函数。当你计算它们的逆 CDF 的积分时，积分区间被等分为 $n$ 份，每一份刚好对应排序后的一个数据点。积分的离散化结果，精确等同于对排序后的数组求均方误差 (MSE)。

动态补丁与优化

为了不破坏目标模型原本的适配器参数，训练过程采用了动态补丁（Dynamic Patching）机制。

在每次前向传播时，模型利用少量的混合回放数据（Mixed replay data），临时将目标 $B$ 矩阵替换为 $B _ {t}^{g}+\alpha _ {g}\Delta B _ {g}$ 来计算语言建模损失（Language Modeling Loss），并在反向传播后立刻恢复原权重。

最终优化的总损失函数结合了语言建模损失 $\mathcal{L} _ {lm}$ 和双向的特征正则化损失 $\mathcal{L} _ {rdm}$ ：

$$min _ {\{\alpha _ {g},\phi\}}\mathcal{L} _ {lm}(\mathcal{D})+\lambda _ {reg}\frac{1}{G}\sum _ {g=1}^{G}(\mathcal{L} _ {rdm}(z _ {t}^{g})+\mathcal{L} _ {rdm}(Z _ {s}^{g}))$$

其中，$\phi$ 代表迁移网络的所有参数，$G$ 是激活的模块组数量。训练完成后，只需再跑一次网络输出 $\Delta B _ {g}$，即可永久注入模型，生成最终的融合权重。