Vision Transformers Need More Than Registers

(CVPR 2026)

motivation

在各种预训练范式(如全监督、CLIP文本监督、DINO自监督)中,ViT 都展现出了强大的图像分类能力,但在需要“密集特征(Dense features)”的下游任务(如目标检测、语义分割)中,却普遍存在特征不对齐或“伪影”问题 。

例如,全监督 ViT 存在注意力缺失 ;文本监督的 CLIP 模型无法产生与文本精确对齐的密集图像特征 ;自监督模型 DINOv2 在特征图上会产生极高范数的“High-norm tokens”,从而破坏目标定位任务 。

之前的研究(如为 DINO 引入 Register tokens)只是将这些异常高范数的 token 转移到了额外的寄存器中,这种“治标不治本”的方法并未能完全解决下游任务中的底层缺陷 。作者认为,高范数 token 只是模型在训练中后期表现出的症状,并非问题的根本原因 。

这些伪影源于一种“懒惰聚合”(lazy aggregation)行为:ViT 在全局注意力机制和粗粒度语义监督的驱动下,利用语义无关的背景图像块作为捷径来表征全局语义。


Vision Transformers Need More Than Registers
https://lijianxiong.space/2026/20260417/
作者
LJX
发布于
2026年4月17日
许可协议