Skip to content

AGLA:全局-局部注意力组装缓解大视觉-语言模型对象幻觉

论文Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

作者:Wenbin An, Feng Tian*, Sicong Leng, Jiahao Nie, Haonan Lin, Qianying Wang*, Ping Chen, Xiaoqin Zhang, Shijian Lu*

机构:西安交通大学、南洋理工大学、联想研究院、麻省大学波士顿、浙江工业大学

发布时间:2024年6月(arXiv),CVPR 2025 录用

🔗 arXiv | 代码

分类标签LVLM Hallucination Decoding Strategy Training-Free Attention GradCAM


一句话总结

提出 AGLA,通过 GradCAM 驱动的 Image-Prompt Matching 生成突出 prompt 相关区域的增强图像,在解码时融合原始图像的全局生成特征和增强图像的局部判别特征,training-free 即插即用缓解 LVLM 对象幻觉,POPE 平均提升 5.5% Accuracy / 5.1% F1。


一、问题与动机

1.1 注意力缺陷:幻觉的根因之一

论文深入分析了 LVLM 的自注意力权重分布,发现了一个关键现象:

LVLM 在处理不同对象查询时,对图像 patch 的注意力权重呈现高度相似的模式——无论查询的对象是否真正存在于图像中。自注意力被某些全局特征所主导,无法区分 prompt 相关和无关的图像区域。

这种注意力缺陷 (attention deficiency) 削弱了 LVLM 的视觉定位能力:

  • 模型倾向于捕获 prompt 无关的全局特征,而忽略 prompt 相关的局部特征
  • 在对抗性设置(adversarial)下,经常共同出现的物体之间的关联会导致幻觉(如看到"road"就幻觉出"car")

1.2 现有方法的不足

方法类别代表方法局限
指令微调LRV, M-HalDetect需要额外训练数据和计算资源
后处理修正Woodpecker依赖外部模型(如 ChatGPT)修订
对比解码VCD, DOLA难以捕获细粒度局部图像特征
惩罚解码OPERA需要额外的回溯-重分配计算

共同问题:缺乏对 prompt 相关局部视觉特征的显式建模

1.3 关键洞察

论文进一步在 POPE 数据集上验证:LVLM 在 adversarial 设置(查询图像中频繁共现的物体)下幻觉率最高,说明模型被 prompt 无关的关联特征所干扰。因此,需要一种机制来高亮 prompt 相关区域、抑制无关干扰


二、核心方法

AGLA 由两个模块组成:Image-Prompt Matching (IPM) 生成增强图像视图,以及 Assembly of Global and Local Attention 通过 logit 融合进行校准解码。

2.1 Image-Prompt Matching (IPM)

IPM 利用外部匹配模型(BLIP-ITM)和 GradCAM 计算每个图像 patch 与输入 prompt 的相关性分数,然后自适应遮蔽无关区域。

跨注意力计算。 设 prompt token 特征 XRM×Dt,图像 patch 特征 YRK×Dv,跨注意力矩阵:

C=softmax(XWTWVYDt)

其中 WTRDt×DtWVRDv×Dt 为跨注意力参数,Cij 表示第 i 个 prompt token 对第 j 个图像 patch 的注意力权重。

GradCAM 相关性分数。j 个图像 patch 相对于整个 prompt 的相关性分数:

cor(j)=1Hi=1Mh=1Hmax(0,sim(v,t)Cij(h))Cij(h)

其中 H 为注意力头数,sim(v,t) 为匹配模型输出的图像-文本整体相似度分数。偏导数项衡量每个注意力分数对整体相似度的敏感性,通过 ReLU 只保留正贡献。

直觉:GradCAM 告诉我们"哪些图像区域对模型判断图文匹配度贡献最大"。正梯度意味着该区域确实在支撑匹配判断,负梯度则可能是噪声。

自适应遮蔽。 根据整体相似度分数自适应确定遮蔽比例:

masking ratio=sim(v,t)2
  • 图文匹配度高 → 更大遮蔽比例 → 更激进地去除干扰,只保留最核心的 prompt 相关区域
  • 图文匹配度低 → 较小遮蔽比例 → 保留更多信息,避免过度丢失

遮蔽方式是将低相关性 patch 对应像素的 RGB 值置零。最终生成增强图像 vaug,其中 prompt 相关内容被高亮、无关干扰被抑制。

2.2 全局-局部注意力组装

在每个解码步 i,同时利用原始图像和增强图像的 logits 进行融合:

pAGLA(yi|v,vaug,t,y<i)softmax[logitθ(yi|v,t,y<i)+αlogitθ(yi|vaug,t,y<i)]
  • 第一项:原始图像提供全局生成特征,保障描述的完整性和流畅性
  • 第二项:增强图像提供局部判别特征,增强对 prompt 相关对象的感知
  • α 为权重系数,平衡两者贡献

与 VCD 的本质区别:VCD 对比原始和扰动(添加噪声)图像,减去扰动分布以消除语言偏见;AGLA 构造一个有用的增强分布,加到原始分布上以补充局部注意力。两者正交且互补。

2.3 自适应合理性约束

直接融合整个输出分布可能惩罚有效输出、提升不合理输出。采用自适应合理性约束,只保留原始分布中高概率的 token:

Vtoken(y<i)={yiV:pθ(yi|v,t,y<i)βmaxwpθ(w|v,t,y<i)}pAGLA(yi|v,vaug,t,y<i)=0,if yiVtoken(y<i)

β 控制截断强度:越大则只保留高概率 token。这避免了增强图像的局部特征过度主导解码,确保生成文本的全局连贯性。

2.4 温度视角的理解

AGLA 的融合策略等价于在解码时施加自适应采样温度

  • 原始和增强图像预测相似时 → 等效于降低温度 → 分布更尖锐,偏向高概率 token → 减少随机性
  • 预测不一致时 → 等效于升高温度 → 分布更平坦 → 给更多 token 机会,增加采样到正确 token 的可能性

三、实验结果

3.1 POPE 判别性评估

在 POPE 数据集 MSCOCO 子集上,三种负样本设置下的表现(LLaVA-1.5 7B):

设置方法Accuracy↑PrecisionRecallF1↑
RandomRegular83.4988.8476.7682.28
RandomDOLA84.7887.5981.2784.19
RandomOPERA87.5394.5279.8086.45
RandomVCD86.8487.1586.6886.83
RandomAGLA88.5494.4182.0887.71
PopularRegular79.9882.4776.7679.34
PopularAGLA85.1487.8882.0884.68
AdversarialRegular76.0376.1176.8076.26
AdversarialVCD77.3173.4386.4779.28
AdversarialAGLA81.1381.2082.1081.36

InstructBLIP 7B 上同样全面领先,Random/Popular/Adversarial F1 分别达 87.07/82.58/79.16。

**完整 POPE(3 子集 × 3 设置)**上,AGLA 相对 Regular 平均提升 5.5% Accuracy、5.1% F1。Adversarial 设置下的提升验证了 AGLA 有效解决了对象关联导致的注意力缺陷问题。

3.2 多对象幻觉 (ROPE)

在 ROPE 数据集(多对象查询)上的提升尤为显著:

模型设置Regular Acc/F1AGLA Acc/F1
LLaVA-1.5Homogenous18.45/35.3760.45/65.49
LLaVA-1.5Adversarial-A10.69/21.4043.77/46.45
LLaVA-1.5Mixed7.02/13.8527.15/29.40
MiniCPM-VHomogenous18.32/27.2325.39/36.51

LLaVA-1.5 在 Homogenous 设置下准确率从 18.45% 跃升至 60.45%(+42%),证明 IPM 模块可有效处理包含多个对象的复杂查询。

3.3 CHAIR 生成式评估

模型方法CHAIRSCHAIRIRecall↑
LLaVA-1.5Regular51.015.275.2
LLaVA-1.5OPERA47.014.678.5
LLaVA-1.5AGLA43.014.178.9
InstructBLIPRegular54.018.171.1
InstructBLIPAGLA49.012.172.5

AGLA 在开放式描述生成中同时降低了幻觉率并提升了描述详细度(Recall),实现了准确性与丰富度的良好平衡

3.4 MME 多类型幻觉

在 MME 幻觉子集(Existence/Count/Position/Color)上,AGLA 在所有类别和模型上均优于 Regular、DOLA、OPERA 和 VCD,说明其在属性级和关系级幻觉上的泛化能力。

3.5 消融实验

模型组件消融(POPE-COCO Popular,LLaVA-1.5):

变体AccuracyF1
AGLA(完整)86.1284.71
去掉截断约束85.6684.42
固定遮蔽比例84.8382.94
仅用增强图像83.5382.14
Regular 基线81.8880.06
  • 去掉原始图像(仅用增强)导致最大性能下降 → 全局特征不可或缺
  • 固定遮蔽比例不如自适应比例 → 不同图文对需要不同的遮蔽强度
  • 所有 AGLA 变体均超越 Regular → 方法整体有效

遮蔽策略对比:像素级遮蔽(默认)> Patch 级 > Soft 级 > Feature 级 > Random。所有策略均超过 Random,验证了匹配模型的必要性。

3.6 效率

方法F1推理时间/样本
VCD83.160.56s
OPERA83.551.64s
AGLA-small (120M 匹配模型)84.110.63s
AGLA84.580.69s

AGLA 的推理开销极小(0.69s vs OPERA 的 1.64s),且更小的匹配模型版本也能达到竞争力的 F1 分数。


四、局限性与未来方向

  1. 模型规模验证不足:实验集中在 7B/13B 级别 LVLM,未验证 LLaVA 34B、Flamingo 70B 等更大模型。
  2. 仅限图文模态:当前仅处理图像-文本数据,未扩展到视频等其他模态。
  3. 依赖外部匹配模型:BLIP-ITM 的质量决定了 IPM 模块的相关性计算上限;对匹配模型未覆盖的细粒度概念可能失效。

五、个人思考

5.1 与项目中其他论文的联系

与 VCD 的关系(互补而非替代):VCD 通过减去扰动分布来抑制语言偏见,AGLA 通过加上增强分布来补充局部视觉判别力。论文指出两者"正交且互补"——理论上可以叠加使用:先用 VCD 减去语言先验噪声,再用 AGLA 加上局部视觉信号。

与 DLC 的对比:DLC 和 AGLA 都是 training-free 的解码策略,但干预机制不同。DLC 用外部 CLIP 在 token 级实时评估视觉对齐度并调制 logits;AGLA 在输入侧构造增强图像视图,让 LVLM 自身产生互补的 logit 分布后融合。AGLA 的优势是不需要逐 token 调用外部模型(仅需一次 GradCAM 计算),更适合长序列生成;DLC 的优势是动态基线机制能适应序列不同阶段的漂移。

与 HALC 的对比:HALC 通过自适应 FOV 采样 + JSD 双向对比解码在局部粒度上修正幻觉。AGLA 则在全局-局部层面做融合。HALC 更精细(patch 级别),AGLA 更全局(整张增强图像)。

与 VisFlow 的对比:VisFlow 在注意力层面干预(token 级增强 + head 级抑制),作用于模型内部。AGLA 在输入-输出层面干预(增强图像输入 + logit 融合输出),不触碰模型内部。两者可以组合使用。

5.2 GradCAM 作为 prompt 感知机制的巧妙之处

AGLA 最核心的 insight 是:利用已有的图文匹配模型(BLIP-ITM)的可解释性工具(GradCAM)来弥补 LVLM 的注意力缺陷。这避免了重新训练模型或设计复杂的注意力修改机制。GradCAM 的优势在于它天然提供了 prompt-conditioned 的图像区域重要性排序——这正是 LVLM 自身注意力所缺乏的。

5.3 自适应遮蔽比例的简洁设计

sim(v,t)/2 作为遮蔽比例是一个非常简洁的设计:

  • 图文高度相关 → 说明图中确实存在 prompt 提到的对象 → 可以大胆遮蔽无关区域
  • 图文低度相关 → 可能对象不存在 → 不应过度遮蔽,否则会误导模型

这个设计暗含了一个合理假设:匹配分数高意味着模型有足够信心定位相关区域,因此可以更激进地聚焦。


参考

  • VCD (CVPR 2024):对比原始和扰动图像的视觉对比解码,与 AGLA 正交互补
  • OPERA (CVPR 2024):过度信任惩罚 + 回溯分配解码策略
  • DOLA (2023):对比深浅层 logits 差异提升 LLM 事实性
  • BLIP (ICML 2022):AGLA 使用 BLIP-ITM 作为匹配模型
  • GradCAM (ICCV 2017):梯度加权类激活映射,AGLA 用于计算 prompt-patch 相关性
  • DLC (2025):CLIP 探针动态 logits 校准,同为 training-free 解码策略
  • HALC (2024):自适应 FOV 对比解码,局部粒度修正幻觉