小熊的小站

Vision Transformers Don't Need Trained Registers

ICLR 2024的《VISION TRANSFORMERS NEED REGISTERS》指出了VIT中也会出现类似attention sinks的伪影。对于REGISTERS我们是否需要可训练呢？

2025-09-14

#深度学习 #大模型

LLM中MOE的安全行为

（arxiv 2025） [2509.09660] Steering MoE LLMs via Expert (De)Activation [2506.17368] SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification

2025-09-13

#深度学习 #大模型

DoLa：通过对比层解码提高大型语言模型的事实性

（ICLR 2024） DoLa = Decoding by Contrasting Layers

2025-09-10

#深度学习 #大模型

PerturboLLaVA：通过扰动视觉训练减少多模态幻觉

（ICLR 2025）

2025-09-08

#深度学习 #多模态 #大模型

对比解码之VCD

（CVPR 2024 Highlight）《Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive》

2025-09-07

#深度学习 #多模态 #大模型

ALPHAEDIT：NULL-SPACE CONSTRAINED KNOWLEDGE EDITING FOR LANGUAGE MODELS

（ICLR 2025 outstanding paper）

2025-09-03

#深度学习

kNN-LMs：一种RAG和LLM前的记忆挂靠方法

（ICLR 2020）《Generalization through Memorization: Nearest Neighbor Language Models》

2025-09-02

#深度学习

DINO系列

本文将介绍facebook/meta出品的DINOv1~v3。 DINO = Self-distillation with no labels

2025-08-31

#深度学习

ICR 探针：追踪隐藏状态动态以在 LLMs 中实现可靠的幻觉检测

（ACL 2025）目前存在多种幻觉检测方法。主流方法通过一致性检查或参考对比分析生成结果 (对比解码等)，而基于概率的方法则关注 Logit概率的不确定性。另一种方法是检查大语言模型各层中的隐状态（例如嵌入向量）以检测幻觉。基于输出或 Logit 概率的方法通常需要真实值参考或多次生成以保证一致性。相比之下，基于隐状态的检测方法具有无需参考的优势，无需依赖外部资源。当前基于隐状态的幻觉检

2025-08-29

#深度学习 #大模型

Gram矩阵的妙用

Gram矩阵介绍给定一个内积空间中的一组向量 v1,v2,…,vn，它们的Gram矩阵 G 是一个n×n的方阵，其元素 Gij 定义为向量 vi 和 vj 的内积。

2025-08-26

#深度学习