T5Gemma2
将强大的多模态、多语言和长上下文能力引入到编码器-解码器架构(Gemma模型)中 。
方法
初始化
编码器和解码器的参数均从预训练的 Gemma 3(仅解码器模型)检查点中初始化 。
适配后的模型中,编码器和解码器拥有大致相同的模型参数量 。
架构改进
绑定词嵌入 (Tied Embedding)
- 定义:在 T5Gemma 2 中,编码器输入嵌入、解码器输入嵌入以及解码器输出的 Softmax 嵌入全部共享相同的参数 。
- 效果:与 T5Gemma 使用独立嵌入相比,这种做法在几乎不损失质量的前提下,使 2B-2B 模型的总参数量减少了 10.5% 。
合并注意力机制 (Merged Attention)
- 机制:传统的编码器-解码器架构在解码器中分别设有“自注意力”和“交叉注意力”层 。T5Gemma 2 将这两者合并为一个统一的模块 。
- 公式实现:
- 将编码器输出 $H$ 与解码器自注意力输入 $X$ 进行拼接 。
- 通过共享的 $W_k$ 和 $W_v$ 权重计算 Key 和 Value:$K, V = [X; [cite_start]H]W_{k,v}$ 。
- 通过掩码 $M$ 控制可见性,使解码器能同时关注到自身过去的 token 和编码器的信息 。
- 优势:这种设计缩短了 T5Gemma 2 与 Gemma 3 原始解码器之间的架构差异,节省了约 6.5% 的总参数量 。
多模态与长上下文能力
采用 SigLIP 视觉编码器(400M 参数),将图像转化为 256 个嵌入 token 。在训练期间,视觉编码器保持冻结状态 。图像 token 始终输入到编码器中,编码器 token 在自注意力中拥有全局可见性(双向注意力)。
采用位置插值 方法 。为了优化性能,将局部注意力层的 RoPE 基频设为 10k,全局层设为 1M 。
训练
在约 2T (2万亿) token 的多语言、代码、数学和图像混合数据上进行预训练 。使用 [UL2 (Unifying Language Learning Paradigms)](UL2: Unifying Language Learning Paradigms | OpenReview)目标进行预处理 。对于文本数据,应用了五种不同的去噪任务(混杂了不同的跨度长度和损坏率)。
使用 4.2M token 的 Batch Size,采用标准的交叉熵损失函数和余弦学习率衰减 。
最终检查点通过对最后 5 个检查点进行平均生成,以稳定性能 。
作者还进行轻度指令微调。
T5Gemma2
https://lijianxiong.space/2025/20251224/