标签 - 多模态 - 小熊的小站

12-10

Video-LLaVA： Learning United Visual Representation by Alignment Before Projection

11-29

IBD：通过图像有偏解码减轻大型视觉-语言模型中的幻觉

11-27

VASparse：通过视觉感知的 token 稀疏化实现高效视觉幻觉缓解

11-26

Be My Eyes：通过多智能体协作将大型语言模型扩展到新模态

11-24

把MoE整合进LLaVA

11-12

多模态大型语言模型的幻觉概述

11-11

借助主动检索增强缓解大型视觉语言模型的幻觉问题

11-05

缓解多模态幻觉通过注意力引导的集成解码

11-02

少即是多：从 EOS 决策角度缓解多模态幻觉

11-01

性能提升的幻觉：为什么对比解码无法缓解多模态大模型中的对象幻觉问题？