Vision Transformers Need More Than Registers

（CVPR 2026）

motivation

在各种预训练范式（如全监督、CLIP文本监督、DINO自监督）中，ViT 都展现出了强大的图像分类能力，但在需要“密集特征（Dense features）”的下游任务（如目标检测、语义分割）中，却普遍存在特征不对齐或“伪影”问题。

例如，全监督 ViT 存在注意力缺失；文本监督的 CLIP 模型无法产生与文本精确对齐的密集图像特征；自监督模型 DINOv2 在特征图上会产生极高范数的“High-norm tokens”，从而破坏目标定位任务。

之前的研究（如为 DINO 引入 Register tokens）只是将这些异常高范数的 token 转移到了额外的寄存器中，这种“治标不治本”的方法并未能完全解决下游任务中的底层缺陷。作者认为，高范数 token 只是模型在训练中后期表现出的症状，并非问题的根本原因。

这些伪影源于一种“懒惰聚合”（lazy aggregation）行为：ViT 在全局注意力机制和粗粒度语义监督的驱动下，利用语义无关的背景图像块作为捷径来表征全局语义。

#深度学习 #多模态 #大模型

Vision Transformers Need More Than Registers

https://lijianxiong.space/2026/20260417/

作者

LJX

发布于

2026年4月17日

许可协议