Structural Graph Probing of Vision-Language Models
(CVPR 2026)
motivation
当前的视觉语言模型(如 LLaVA、Qwen-VL 等)在多模态任务上表现出色,但其内部计算的组织方式仍未被完全理解 。
现有的可解释性研究大多侧重于局部特征(如注意力模式、显著性图或局部归因) 。
这些局部方法难以刻画多模态行为在大型神经网络中是如何通过神经元群体的交互来实现的 。
作者受到神经科学的启发,提出将复杂的计算视为结构化的群体交互,从而引入神经相关性拓扑作为分析的核心对象 。
方法
给定图像和文本提示,冻结 VLM 的权重进行前向推理。在第 $l$ 个 Transformer 层,我们提取其隐藏层激活状态矩阵 $H^{(l)} \in \mathbb{R}^{d \times N}$ 。
- $d$ 代表模型的隐藏层维度(即神经元的总数)。
- $N$ 代表输入的多模态 token 总数(视觉 token 加上文本 token)。
- 矩阵的第 $i$ 行 $H_{i,:}^{(l)}$ 就代表了第 $i$ 个神经元在所有 $N$ 个 token 上的响应/激活谱 。
将第 $l$ 层建模为一个无向完全图 $G^{(l)} = (V, E, W^{(l)})$,其中节点集合 $V$ 包含了所有的 $d$ 个神经元 。 图中的边权重 $W_{ij}^{(l)}$ 用于衡量神经元 $i$ 和神经元 $j$ 之间的功能耦合程度,这里采用的是它们激活谱之间的皮尔逊相关系数 (Pearson Correlation) :
$$W_{ij}^{(l)} = corr(H_{i,:}^{(l)}, H_{j,:}^{(l)}) = \frac{(H_{i,:}^{(l)} - \tilde{H}{i,:}^{(l)})^\top (H{j,:}^{(l)} - \tilde{H}{j,:}^{(l)})}{||H{i,:}^{(l)} - \tilde{H}{i,:}^{(l)}|| \cdot ||H{j,:}^{(l)} - \tilde{H}_{j,:}^{(l)}||}$$
通过这个公式,得到了一个反映层内神经元同构/异构激活模式的拓扑矩阵 $W^{(l)}$ 。
为了研究模型是如何分别处理视觉和文本信息的,作者基于同样的单次前向传播,通过位置索引将隐藏状态矩阵拆分:
- $H_{vis}^{(l)}$: 仅包含视觉 token 的隐藏状态子集 。
- $H_{text}^{(l)}$: 仅包含文本 token 的隐藏状态子集 。
然后,使用与上述相同的皮尔逊相关系数方法,分别计算出纯视觉相关性图 $G_{vis}^{(l)}$ 和纯文本相关性图 $G_{text}^{(l)}$ 。对比这两个子图与全局多模态图 $G^{(l)}$,可以分析出相关性结构是如何针对不同模态进行特化的 。
为了对这些庞大的图结构进行降维分析,同时不直接暴露原始的隐藏层激活值(避免过度拟合于特定的语义内容),作者引入了图卷积网络(GCN)。
节点初始化: 为每个神经元分配一个独立且可学习的 One-hot 身份嵌入向量构成的矩阵 $X$ 。这确保了 GCN 捕捉的是纯粹的“连接结构”特征,而非原始的数值大小 。
图卷积网络 (GCN) 聚合:
GCN 利用之前计算出的相关性矩阵 $W^{(l)}$ 作为邻接矩阵,来更新节点的表示:
$$Z^{(l)} = GCN(W^{(l)}, X) = \sigma(D^{-\frac{1}{2}} W^{(l)} D^{-\frac{1}{2}} X W_g)$$
其中,$D$ 是矩阵 $W^{(l)}$ 的度矩阵(Degree matrix),$W_g$ 是可学习的权重参数,$\sigma(\cdot)$ 是非线性激活函数 。
全局池化生成层级签名:
为了获得代表整层结构的固定维度向量,对节点表示 $Z^{(l)}$ 进行均值池化(捕捉整体趋势)和最大池化(保留显著结构),并将其拼接:
$$h^{(l)} = Concat(Mean(Z^{(l)}), Max(Z^{(l)}))$$
最终生成的 $h^{(l)}$ 即可作为线性分类器或回归器的输入,用于预测模型的行为(如:预测物体计数、检测幻觉等) 。
在实际操作中,一层往往有数千个神经元,导致全连接的相关性矩阵异常庞大(数百万条边),计算成本极高且会掩盖最重要的结构信号 。
- 方法:作者采用稀疏构建策略,对于 $W^{(l)}$,仅保留相关系数绝对值排名前 $k%$ 的边(实验中测试了保留前 1% 到 20% 的稀疏度) 。
- 依据:实验表明,即使在极高的稀疏度下(保留少量边),下游的探测准确率依然保持稳定。这证明了与任务最相关的拓扑信号高度集中在那些最强的相关性连接上 。
有了这套拓扑结构后,作者提出了以下具体的分析手段:
寻找“中心神经元” (Hubs): 在给定的相关性图 $W^{(l)}$ 中,计算每个神经元 $i$ 的度(与其连接的所有边权重之和) :
$$d_i^{(l)} = \sum_{j \neq i} |W_{ij}^{(l)}|$$
将度排名前 k% 的神经元定义为网络结构的 Hubs。后续实验通过直接将其激活置零(Zeroing)或缩放(Scaling)证明,这些结构上的 Hubs 对模型输出有着巨大的因果决定作用 。
跨模态图对齐 (Cross-Modal Graph Alignment): 利用对比学习框架(InfoNCE 损失函数),计算并匹配同一层在不同模态(如纯图像输入 vs 纯文本输入)下生成的图嵌入 $h^{(l)}$,以此衡量视觉通路和文本通路在模型内部的空间同构性 。