小熊的小站

ICL是低秩更新

ICL (In-Context Learning)是一种在不更新模型参数（即不进行梯度下降或微调）的情况下，通过在输入（即“上下文”）中提供少量示例来指导模型完成特定任务的能力的方法。

2025-08-17

#深度学习

RobustKV：通过 KV 驱逐机制保护大型语言模型免受越狱攻击

（ICLR 2025）

2025-08-13

#深度学习 #大模型

InLine attention：弥合Softmax与线性注意力机制的差距

（NeurIPS 2024）

2025-08-12

#深度学习

SINDER：Repairing the Singular Defects of DINOv2

(ECCV 2024 Oral)

2025-08-10

#深度学习

Ecotransformer-无需乘法的注意力机制

（arxiv 2025）2507.20096 众所周知，注意力为$softmax(\frac{QK^T}{\sqrt{D_k}})V$。

2025-08-07

#深度学习

可训练动态掩码稀疏注意力

（arxiv 2025）《Trainable Dynamic Mask Sparse Attention》 Smalldoge出品，该组织专注于小型语言模型，专注于效率和易用性。

2025-08-05

#深度学习

多模态对抗攻击与防御速览

视觉-语言预训练模型(VLP安全) 共41篇论文。

2025-07-27

#深度学习 #人工智能 #多模态 #大模型

Attention Sink

Attention Sink是指某些（初始）token具有较大的注意力得分。最早明确提出于StreamingLLM (2309.17453)。

2025-07-26

#深度学习

OATS-通过稀疏与低秩分解实现异常值感知的剪枝

（ICLR 2025) 算法OATS假定模型权重$W\approx S+L$，其中S为稀疏，$||S_0||\le k$；L为低秩，$Rank(L)\le r$。

2025-07-24

#深度学习 #大模型

OPERA：通过过度信任惩罚和回顾分配减轻多模态大语言模型中的幻觉

2025-07-22

#深度学习 #多模态 #大模型