T5Gemma2

将强大的多模态、多语言和长上下文能力引入到编码器-解码器架构（Gemma模型）中。

方法

初始化

编码器和解码器的参数均从预训练的 Gemma 3（仅解码器模型）检查点中初始化。

适配后的模型中，编码器和解码器拥有大致相同的模型参数量。

架构改进

绑定词嵌入 (Tied Embedding)

定义：在 T5Gemma 2 中，编码器输入嵌入、解码器输入嵌入以及解码器输出的 Softmax 嵌入全部共享相同的参数。
效果：与 T5Gemma 使用独立嵌入相比，这种做法在几乎不损失质量的前提下，使 2B-2B 模型的总参数量减少了 10.5% 。

合并注意力机制 (Merged Attention)

机制：传统的编码器-解码器架构在解码器中分别设有“自注意力”和“交叉注意力”层。T5Gemma 2 将这两者合并为一个统一的模块。
公式实现：
- 将编码器输出 $H$ 与解码器自注意力输入 $X$ 进行拼接。
- 通过共享的 $W_k$ 和 $W_v$ 权重计算 Key 和 Value：$K, V = [X; [cite_start]H]W_{k,v}$ 。
- 通过掩码 $M$ 控制可见性，使解码器能同时关注到自身过去的 token 和编码器的信息。
优势：这种设计缩短了 T5Gemma 2 与 Gemma 3 原始解码器之间的架构差异，节省了约 6.5% 的总参数量。

多模态与长上下文能力

采用 SigLIP 视觉编码器（400M 参数），将图像转化为 256 个嵌入 token 。在训练期间，视觉编码器保持冻结状态。图像 token 始终输入到编码器中，编码器 token 在自注意力中拥有全局可见性（双向注意力）。

采用位置插值 方法。为了优化性能，将局部注意力层的 RoPE 基频设为 10k，全局层设为 1M 。

训练

在约 2T (2万亿) token 的多语言、代码、数学和图像混合数据上进行预训练。使用 [UL2 (Unifying Language Learning Paradigms)](UL2: Unifying Language Learning Paradigms | OpenReview)目标进行预处理。对于文本数据，应用了五种不同的去噪任务（混杂了不同的跨度长度和损坏率）。

使用 4.2M token 的 Batch Size，采用标准的交叉熵损失函数和余弦学习率衰减。

最终检查点通过对最后 5 个检查点进行平均生成，以稳定性能。

作者还进行轻度指令微调。

#深度学习 #多模态 #大模型

T5Gemma2

https://lijianxiong.space/2025/20251224/

作者

LJX

发布于

2025年12月24日

许可协议

Investigating Spatial Attention Bias in Vision-Language Models 上一篇

Steer LLM Latents for Hallucination Detection 下一篇