共计 42 篇文章
2025
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
IBD:通过图像有偏解码减轻大型视觉-语言模型中的幻觉
VASparse:通过视觉感知的 token 稀疏化实现高效视觉幻觉缓解
Be My Eyes:通过多智能体协作将大型语言模型扩展到新模态
把MoE整合进LLaVA
多模态大型语言模型的幻觉概述
借助主动检索增强缓解大型视觉语言模型的幻觉问题
缓解多模态幻觉通过注意力引导的集成解码
少即是多:从 EOS 决策角度缓解多模态幻觉
性能提升的幻觉:为什么对比解码无法缓解多模态大模型中的对象幻觉问题?