AGLA:全局-局部注意力组装缓解大视觉-语言模型对象幻觉
论文:Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention
作者:Wenbin An, Feng Tian*, Sicong Leng, Jiahao Nie, Haonan Lin, Qianying Wang*, Ping Chen, Xiaoqin Zhang, Shijian Lu*
机构:西安交通大学、南洋理工大学、联想研究院、麻省大学波士顿、浙江工业大学
发布时间:2024年6月(arXiv),CVPR 2025 录用
分类标签:
LVLMHallucinationDecoding StrategyTraining-FreeAttentionGradCAM
一句话总结
提出 AGLA,通过 GradCAM 驱动的 Image-Prompt Matching 生成突出 prompt 相关区域的增强图像,在解码时融合原始图像的全局生成特征和增强图像的局部判别特征,training-free 即插即用缓解 LVLM 对象幻觉,POPE 平均提升 5.5% Accuracy / 5.1% F1。
一、问题与动机
1.1 注意力缺陷:幻觉的根因之一
论文深入分析了 LVLM 的自注意力权重分布,发现了一个关键现象:
LVLM 在处理不同对象查询时,对图像 patch 的注意力权重呈现高度相似的模式——无论查询的对象是否真正存在于图像中。自注意力被某些全局特征所主导,无法区分 prompt 相关和无关的图像区域。
这种注意力缺陷 (attention deficiency) 削弱了 LVLM 的视觉定位能力:
- 模型倾向于捕获 prompt 无关的全局特征,而忽略 prompt 相关的局部特征
- 在对抗性设置(adversarial)下,经常共同出现的物体之间的关联会导致幻觉(如看到"road"就幻觉出"car")
1.2 现有方法的不足
| 方法类别 | 代表方法 | 局限 |
|---|---|---|
| 指令微调 | LRV, M-HalDetect | 需要额外训练数据和计算资源 |
| 后处理修正 | Woodpecker | 依赖外部模型(如 ChatGPT)修订 |
| 对比解码 | VCD, DOLA | 难以捕获细粒度局部图像特征 |
| 惩罚解码 | OPERA | 需要额外的回溯-重分配计算 |
共同问题:缺乏对 prompt 相关局部视觉特征的显式建模。
1.3 关键洞察
论文进一步在 POPE 数据集上验证:LVLM 在 adversarial 设置(查询图像中频繁共现的物体)下幻觉率最高,说明模型被 prompt 无关的关联特征所干扰。因此,需要一种机制来高亮 prompt 相关区域、抑制无关干扰。
二、核心方法
AGLA 由两个模块组成:Image-Prompt Matching (IPM) 生成增强图像视图,以及 Assembly of Global and Local Attention 通过 logit 融合进行校准解码。
2.1 Image-Prompt Matching (IPM)
IPM 利用外部匹配模型(BLIP-ITM)和 GradCAM 计算每个图像 patch 与输入 prompt 的相关性分数,然后自适应遮蔽无关区域。
跨注意力计算。 设 prompt token 特征
其中
GradCAM 相关性分数。 第
其中
直觉:GradCAM 告诉我们"哪些图像区域对模型判断图文匹配度贡献最大"。正梯度意味着该区域确实在支撑匹配判断,负梯度则可能是噪声。
自适应遮蔽。 根据整体相似度分数自适应确定遮蔽比例:
- 图文匹配度高 → 更大遮蔽比例 → 更激进地去除干扰,只保留最核心的 prompt 相关区域
- 图文匹配度低 → 较小遮蔽比例 → 保留更多信息,避免过度丢失
遮蔽方式是将低相关性 patch 对应像素的 RGB 值置零。最终生成增强图像
2.2 全局-局部注意力组装
在每个解码步
- 第一项:原始图像提供全局生成特征,保障描述的完整性和流畅性
- 第二项:增强图像提供局部判别特征,增强对 prompt 相关对象的感知
为权重系数,平衡两者贡献
与 VCD 的本质区别:VCD 对比原始和扰动(添加噪声)图像,减去扰动分布以消除语言偏见;AGLA 构造一个有用的增强分布,加到原始分布上以补充局部注意力。两者正交且互补。
2.3 自适应合理性约束
直接融合整个输出分布可能惩罚有效输出、提升不合理输出。采用自适应合理性约束,只保留原始分布中高概率的 token:
2.4 温度视角的理解
AGLA 的融合策略等价于在解码时施加自适应采样温度:
- 原始和增强图像预测相似时 → 等效于降低温度 → 分布更尖锐,偏向高概率 token → 减少随机性
- 预测不一致时 → 等效于升高温度 → 分布更平坦 → 给更多 token 机会,增加采样到正确 token 的可能性
三、实验结果
3.1 POPE 判别性评估
在 POPE 数据集 MSCOCO 子集上,三种负样本设置下的表现(LLaVA-1.5 7B):
| 设置 | 方法 | Accuracy↑ | Precision | Recall | F1↑ |
|---|---|---|---|---|---|
| Random | Regular | 83.49 | 88.84 | 76.76 | 82.28 |
| Random | DOLA | 84.78 | 87.59 | 81.27 | 84.19 |
| Random | OPERA | 87.53 | 94.52 | 79.80 | 86.45 |
| Random | VCD | 86.84 | 87.15 | 86.68 | 86.83 |
| Random | AGLA | 88.54 | 94.41 | 82.08 | 87.71 |
| Popular | Regular | 79.98 | 82.47 | 76.76 | 79.34 |
| Popular | AGLA | 85.14 | 87.88 | 82.08 | 84.68 |
| Adversarial | Regular | 76.03 | 76.11 | 76.80 | 76.26 |
| Adversarial | VCD | 77.31 | 73.43 | 86.47 | 79.28 |
| Adversarial | AGLA | 81.13 | 81.20 | 82.10 | 81.36 |
InstructBLIP 7B 上同样全面领先,Random/Popular/Adversarial F1 分别达 87.07/82.58/79.16。
**完整 POPE(3 子集 × 3 设置)**上,AGLA 相对 Regular 平均提升 5.5% Accuracy、5.1% F1。Adversarial 设置下的提升验证了 AGLA 有效解决了对象关联导致的注意力缺陷问题。
3.2 多对象幻觉 (ROPE)
在 ROPE 数据集(多对象查询)上的提升尤为显著:
| 模型 | 设置 | Regular Acc/F1 | AGLA Acc/F1 |
|---|---|---|---|
| LLaVA-1.5 | Homogenous | 18.45/35.37 | 60.45/65.49 |
| LLaVA-1.5 | Adversarial-A | 10.69/21.40 | 43.77/46.45 |
| LLaVA-1.5 | Mixed | 7.02/13.85 | 27.15/29.40 |
| MiniCPM-V | Homogenous | 18.32/27.23 | 25.39/36.51 |
LLaVA-1.5 在 Homogenous 设置下准确率从 18.45% 跃升至 60.45%(+42%),证明 IPM 模块可有效处理包含多个对象的复杂查询。
3.3 CHAIR 生成式评估
| 模型 | 方法 | CHAIR | CHAIR | Recall↑ |
|---|---|---|---|---|
| LLaVA-1.5 | Regular | 51.0 | 15.2 | 75.2 |
| LLaVA-1.5 | OPERA | 47.0 | 14.6 | 78.5 |
| LLaVA-1.5 | AGLA | 43.0 | 14.1 | 78.9 |
| InstructBLIP | Regular | 54.0 | 18.1 | 71.1 |
| InstructBLIP | AGLA | 49.0 | 12.1 | 72.5 |
AGLA 在开放式描述生成中同时降低了幻觉率并提升了描述详细度(Recall),实现了准确性与丰富度的良好平衡。
3.4 MME 多类型幻觉
在 MME 幻觉子集(Existence/Count/Position/Color)上,AGLA 在所有类别和模型上均优于 Regular、DOLA、OPERA 和 VCD,说明其在属性级和关系级幻觉上的泛化能力。
3.5 消融实验
模型组件消融(POPE-COCO Popular,LLaVA-1.5):
| 变体 | Accuracy | F1 |
|---|---|---|
| AGLA(完整) | 86.12 | 84.71 |
| 去掉截断约束 | 85.66 | 84.42 |
| 固定遮蔽比例 | 84.83 | 82.94 |
| 仅用增强图像 | 83.53 | 82.14 |
| Regular 基线 | 81.88 | 80.06 |
- 去掉原始图像(仅用增强)导致最大性能下降 → 全局特征不可或缺
- 固定遮蔽比例不如自适应比例 → 不同图文对需要不同的遮蔽强度
- 所有 AGLA 变体均超越 Regular → 方法整体有效
遮蔽策略对比:像素级遮蔽(默认)> Patch 级 > Soft 级 > Feature 级 > Random。所有策略均超过 Random,验证了匹配模型的必要性。
3.6 效率
| 方法 | F1 | 推理时间/样本 |
|---|---|---|
| VCD | 83.16 | 0.56s |
| OPERA | 83.55 | 1.64s |
| AGLA-small (120M 匹配模型) | 84.11 | 0.63s |
| AGLA | 84.58 | 0.69s |
AGLA 的推理开销极小(0.69s vs OPERA 的 1.64s),且更小的匹配模型版本也能达到竞争力的 F1 分数。
四、局限性与未来方向
- 模型规模验证不足:实验集中在 7B/13B 级别 LVLM,未验证 LLaVA 34B、Flamingo 70B 等更大模型。
- 仅限图文模态:当前仅处理图像-文本数据,未扩展到视频等其他模态。
- 依赖外部匹配模型:BLIP-ITM 的质量决定了 IPM 模块的相关性计算上限;对匹配模型未覆盖的细粒度概念可能失效。
五、个人思考
5.1 与项目中其他论文的联系
与 VCD 的关系(互补而非替代):VCD 通过减去扰动分布来抑制语言偏见,AGLA 通过加上增强分布来补充局部视觉判别力。论文指出两者"正交且互补"——理论上可以叠加使用:先用 VCD 减去语言先验噪声,再用 AGLA 加上局部视觉信号。
与 DLC 的对比:DLC 和 AGLA 都是 training-free 的解码策略,但干预机制不同。DLC 用外部 CLIP 在 token 级实时评估视觉对齐度并调制 logits;AGLA 在输入侧构造增强图像视图,让 LVLM 自身产生互补的 logit 分布后融合。AGLA 的优势是不需要逐 token 调用外部模型(仅需一次 GradCAM 计算),更适合长序列生成;DLC 的优势是动态基线机制能适应序列不同阶段的漂移。
与 HALC 的对比:HALC 通过自适应 FOV 采样 + JSD 双向对比解码在局部粒度上修正幻觉。AGLA 则在全局-局部层面做融合。HALC 更精细(patch 级别),AGLA 更全局(整张增强图像)。
与 VisFlow 的对比:VisFlow 在注意力层面干预(token 级增强 + head 级抑制),作用于模型内部。AGLA 在输入-输出层面干预(增强图像输入 + logit 融合输出),不触碰模型内部。两者可以组合使用。
5.2 GradCAM 作为 prompt 感知机制的巧妙之处
AGLA 最核心的 insight 是:利用已有的图文匹配模型(BLIP-ITM)的可解释性工具(GradCAM)来弥补 LVLM 的注意力缺陷。这避免了重新训练模型或设计复杂的注意力修改机制。GradCAM 的优势在于它天然提供了 prompt-conditioned 的图像区域重要性排序——这正是 LVLM 自身注意力所缺乏的。
5.3 自适应遮蔽比例的简洁设计
- 图文高度相关 → 说明图中确实存在 prompt 提到的对象 → 可以大胆遮蔽无关区域
- 图文低度相关 → 可能对象不存在 → 不应过度遮蔽,否则会误导模型
这个设计暗含了一个合理假设:匹配分数高意味着模型有足够信心定位相关区域,因此可以更激进地聚焦。
参考
- VCD (CVPR 2024):对比原始和扰动图像的视觉对比解码,与 AGLA 正交互补
- OPERA (CVPR 2024):过度信任惩罚 + 回溯分配解码策略
- DOLA (2023):对比深浅层 logits 差异提升 LLM 事实性
- BLIP (ICML 2022):AGLA 使用 BLIP-ITM 作为匹配模型
- GradCAM (ICCV 2017):梯度加权类激活映射,AGLA 用于计算 prompt-patch 相关性
- DLC (2025):CLIP 探针动态 logits 校准,同为 training-free 解码策略
- HALC (2024):自适应 FOV 对比解码,局部粒度修正幻觉