Text-to-LoRA： Instant Transformer Adaption

（ICML 2025）

模块

工作流程：

模型架构：

T2L-L (Large)： 直接输出完整的 $A$ 和 $B$ 矩阵。参数量最大（~55M）。

T2L-M (Medium)： $A$ 和 $B$ 共享输出头，通过 Learned Embedding 来区分生成 $A$ 还是 $B$。参数量中等（~34M）。

T2L-S (Small)： 极度压缩，每次只输出矩阵的一行/列（Rank），参数量最小（~5M）。

作者尝试了两种训练策略。

先训练好几百个特定任务的 LoRA（作为 Oracle/老师），然后训练 T2L 去“模仿”这些 LoRA 的参数权重。

T2L 能够很好地压缩和重建已见过的任务，性能甚至能略微超过原始 LoRA（起到正则化作用）。

但在这种方法的泛化性可能不强。无法泛化到未见过的任务（Zero-shot 失败）。

功能相似的任务（如两个不同的数学任务），其训练出来的 LoRA 权重在参数空间中可能相距甚远（处于不同的局部极小值）。因此，T2L 无法学习到参数空间与任务语义的平滑映射关系。

不预先训练 LoRA。直接让 T2L 连接到冻结的 LLM 上，使用多任务数据集（Super Natural Instructions, SNI），通过端到端的 Loss（预测 Token 的准确率）来更新 T2L 的参数。

T2L 能够学习将“任务描述语义”映射到“有效的 LoRA 参数”。

具备强大的零样本（Zero-shot）泛化能力。 即使是训练集中没见过的任务，只要给一段描述，T2L 就能生成有效的适配器。

单张H100GPU上。

重构 9 个基准特定 LoRA 的训练大约耗时 10 分钟，而重构 479 个 SNI LoRA 适配器的训练则需约 10 小时。

#深度学习 #大模型

Text-to-LoRA： Instant Transformer Adaption

https://lijianxiong.space/2026/20260110/

作者

LJX

发布于

2026年1月10日

许可协议