AGLA：全局-局部注意力组装缓解大视觉-语言模型对象幻觉

论文：Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention
作者：Wenbin An, Feng Tian*, Sicong Leng, Jiahao Nie, Haonan Lin, Qianying Wang*, Ping Chen, Xiaoqin Zhang, Shijian Lu*
机构：西安交通大学、南洋理工大学、联想研究院、麻省大学波士顿、浙江工业大学
发布时间：2024年6月（arXiv），CVPR 2025 录用
🔗 arXiv | 代码
分类标签：LVLM Hallucination Decoding Strategy Training-Free Attention GradCAM

一句话总结

提出 AGLA，通过 GradCAM 驱动的 Image-Prompt Matching 生成突出 prompt 相关区域的增强图像，在解码时融合原始图像的全局生成特征和增强图像的局部判别特征，training-free 即插即用缓解 LVLM 对象幻觉，POPE 平均提升 5.5% Accuracy / 5.1% F1。

一、问题与动机

1.1 注意力缺陷：幻觉的根因之一

论文深入分析了 LVLM 的自注意力权重分布，发现了一个关键现象：

LVLM 在处理不同对象查询时，对图像 patch 的注意力权重呈现高度相似的模式——无论查询的对象是否真正存在于图像中。自注意力被某些全局特征所主导，无法区分 prompt 相关和无关的图像区域。

这种注意力缺陷 (attention deficiency) 削弱了 LVLM 的视觉定位能力：

模型倾向于捕获 prompt 无关的全局特征，而忽略 prompt 相关的局部特征
在对抗性设置（adversarial）下，经常共同出现的物体之间的关联会导致幻觉（如看到"road"就幻觉出"car"）

1.2 现有方法的不足

方法类别	代表方法	局限
指令微调	LRV, M-HalDetect	需要额外训练数据和计算资源
后处理修正	Woodpecker	依赖外部模型（如 ChatGPT）修订
对比解码	VCD, DOLA	难以捕获细粒度局部图像特征
惩罚解码	OPERA	需要额外的回溯-重分配计算

共同问题：缺乏对 prompt 相关局部视觉特征的显式建模。

1.3 关键洞察

论文进一步在 POPE 数据集上验证：LVLM 在 adversarial 设置（查询图像中频繁共现的物体）下幻觉率最高，说明模型被 prompt 无关的关联特征所干扰。因此，需要一种机制来高亮 prompt 相关区域、抑制无关干扰。

二、核心方法

AGLA 由两个模块组成：Image-Prompt Matching (IPM) 生成增强图像视图，以及 Assembly of Global and Local Attention 通过 logit 融合进行校准解码。

2.1 Image-Prompt Matching (IPM)

IPM 利用外部匹配模型（BLIP-ITM）和 GradCAM 计算每个图像 patch 与输入 prompt 的相关性分数，然后自适应遮蔽无关区域。

跨注意力计算。 设 prompt token 特征 $X \in R^{M \times D_{t}}$ ，图像 patch 特征 $Y \in R^{K \times D_{v}}$ ，跨注意力矩阵：

C = softmax (\frac{X W_{T} W_{V}^{⊤} Y^{⊤}}{\sqrt{D_{t}}})

其中 $W_{T} \in R^{D_{t} \times D_{t}}$ 、 $W_{V} \in R^{D_{v} \times D_{t}}$ 为跨注意力参数， $C_{i j}$ 表示第 $i$ 个 prompt token 对第 $j$ 个图像 patch 的注意力权重。

GradCAM 相关性分数。 第 $j$ 个图像 patch 相对于整个 prompt 的相关性分数：

cor (j) = \frac{1}{H} \sum_{i = 1}^{M} \sum_{h = 1}^{H} max (0, \frac{\partial sim (v, t)}{\partial C_{i j}^{(h)}}) \cdot C_{i j}^{(h)}

其中 $H$ 为注意力头数， $sim (v, t)$ 为匹配模型输出的图像-文本整体相似度分数。偏导数项衡量每个注意力分数对整体相似度的敏感性，通过 ReLU 只保留正贡献。

直觉：GradCAM 告诉我们"哪些图像区域对模型判断图文匹配度贡献最大"。正梯度意味着该区域确实在支撑匹配判断，负梯度则可能是噪声。

自适应遮蔽。 根据整体相似度分数自适应确定遮蔽比例：

masking ratio = \frac{sim (v, t)}{2}

图文匹配度高 → 更大遮蔽比例 → 更激进地去除干扰，只保留最核心的 prompt 相关区域
图文匹配度低 → 较小遮蔽比例 → 保留更多信息，避免过度丢失

遮蔽方式是将低相关性 patch 对应像素的 RGB 值置零。最终生成增强图像 $v^{aug}$ ，其中 prompt 相关内容被高亮、无关干扰被抑制。

2.2 全局-局部注意力组装

在每个解码步 $i$ ，同时利用原始图像和增强图像的 logits 进行融合：

p_{AGLA} (y_{i} | v, v^{aug}, t, y_{< i}) \sim softmax [{logit}_{θ} (y_{i} | v, t, y_{< i}) + α \cdot {logit}_{θ} (y_{i} | v^{aug}, t, y_{< i})]

第一项：原始图像提供全局生成特征，保障描述的完整性和流畅性
第二项：增强图像提供局部判别特征，增强对 prompt 相关对象的感知
$α$ 为权重系数，平衡两者贡献

与 VCD 的本质区别：VCD 对比原始和扰动（添加噪声）图像，减去扰动分布以消除语言偏见；AGLA 构造一个有用的增强分布，加到原始分布上以补充局部注意力。两者正交且互补。

2.3 自适应合理性约束

直接融合整个输出分布可能惩罚有效输出、提升不合理输出。采用自适应合理性约束，只保留原始分布中高概率的 token：

V_{token} (y_{< i}) = {y_{i} \in V : p_{θ} (y_{i} | v, t, y_{< i}) \geq β \cdot max_{w} p_{θ} (w | v, t, y_{< i})}

p_{AGLA} (y_{i} | v, v^{aug}, t, y_{< i}) = 0, if y_{i} \notin V_{token} (y_{< i})

$β$ 控制截断强度：越大则只保留高概率 token。这避免了增强图像的局部特征过度主导解码，确保生成文本的全局连贯性。

2.4 温度视角的理解

AGLA 的融合策略等价于在解码时施加自适应采样温度：

原始和增强图像预测相似时 → 等效于降低温度 → 分布更尖锐，偏向高概率 token → 减少随机性
预测不一致时 → 等效于升高温度 → 分布更平坦 → 给更多 token 机会，增加采样到正确 token 的可能性

三、实验结果

3.1 POPE 判别性评估

在 POPE 数据集 MSCOCO 子集上，三种负样本设置下的表现（LLaVA-1.5 7B）：

设置	方法	Accuracy↑	Precision	Recall	F1↑
Random	Regular	83.49	88.84	76.76	82.28
Random	DOLA	84.78	87.59	81.27	84.19
Random	OPERA	87.53	94.52	79.80	86.45
Random	VCD	86.84	87.15	86.68	86.83
Random	AGLA	88.54	94.41	82.08	87.71
Popular	Regular	79.98	82.47	76.76	79.34
Popular	AGLA	85.14	87.88	82.08	84.68
Adversarial	Regular	76.03	76.11	76.80	76.26
Adversarial	VCD	77.31	73.43	86.47	79.28
Adversarial	AGLA	81.13	81.20	82.10	81.36

InstructBLIP 7B 上同样全面领先，Random/Popular/Adversarial F1 分别达 87.07/82.58/79.16。

**完整 POPE（3 子集 × 3 设置）**上，AGLA 相对 Regular 平均提升 5.5% Accuracy、5.1% F1。Adversarial 设置下的提升验证了 AGLA 有效解决了对象关联导致的注意力缺陷问题。

3.2 多对象幻觉 (ROPE)

在 ROPE 数据集（多对象查询）上的提升尤为显著：

模型	设置	Regular Acc/F1	AGLA Acc/F1
LLaVA-1.5	Homogenous	18.45/35.37	60.45/65.49
LLaVA-1.5	Adversarial-A	10.69/21.40	43.77/46.45
LLaVA-1.5	Mixed	7.02/13.85	27.15/29.40
MiniCPM-V	Homogenous	18.32/27.23	25.39/36.51

LLaVA-1.5 在 Homogenous 设置下准确率从 18.45% 跃升至 60.45%（+42%），证明 IPM 模块可有效处理包含多个对象的复杂查询。

3.3 CHAIR 生成式评估

模型	方法	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall↑
LLaVA-1.5	Regular	51.0	15.2	75.2
LLaVA-1.5	OPERA	47.0	14.6	78.5
LLaVA-1.5	AGLA	43.0	14.1	78.9
InstructBLIP	Regular	54.0	18.1	71.1
InstructBLIP	AGLA	49.0	12.1	72.5

AGLA 在开放式描述生成中同时降低了幻觉率并提升了描述详细度（Recall），实现了准确性与丰富度的良好平衡。

3.4 MME 多类型幻觉

在 MME 幻觉子集（Existence/Count/Position/Color）上，AGLA 在所有类别和模型上均优于 Regular、DOLA、OPERA 和 VCD，说明其在属性级和关系级幻觉上的泛化能力。

3.5 消融实验

模型组件消融（POPE-COCO Popular，LLaVA-1.5）：

变体	Accuracy	F1
AGLA（完整）	86.12	84.71
去掉截断约束	85.66	84.42
固定遮蔽比例	84.83	82.94
仅用增强图像	83.53	82.14
Regular 基线	81.88	80.06

去掉原始图像（仅用增强）导致最大性能下降 → 全局特征不可或缺
固定遮蔽比例不如自适应比例 → 不同图文对需要不同的遮蔽强度
所有 AGLA 变体均超越 Regular → 方法整体有效

遮蔽策略对比：像素级遮蔽（默认）> Patch 级 > Soft 级 > Feature 级 > Random。所有策略均超过 Random，验证了匹配模型的必要性。

3.6 效率

方法	F1	推理时间/样本
VCD	83.16	0.56s
OPERA	83.55	1.64s
AGLA-small (120M 匹配模型)	84.11	0.63s
AGLA	84.58	0.69s

AGLA 的推理开销极小（0.69s vs OPERA 的 1.64s），且更小的匹配模型版本也能达到竞争力的 F1 分数。

四、局限性与未来方向

模型规模验证不足：实验集中在 7B/13B 级别 LVLM，未验证 LLaVA 34B、Flamingo 70B 等更大模型。
仅限图文模态：当前仅处理图像-文本数据，未扩展到视频等其他模态。
依赖外部匹配模型：BLIP-ITM 的质量决定了 IPM 模块的相关性计算上限；对匹配模型未覆盖的细粒度概念可能失效。

五、个人思考

5.1 与项目中其他论文的联系

与 VCD 的关系（互补而非替代）：VCD 通过减去扰动分布来抑制语言偏见，AGLA 通过加上增强分布来补充局部视觉判别力。论文指出两者"正交且互补"——理论上可以叠加使用：先用 VCD 减去语言先验噪声，再用 AGLA 加上局部视觉信号。

与 DLC 的对比：DLC 和 AGLA 都是 training-free 的解码策略，但干预机制不同。DLC 用外部 CLIP 在 token 级实时评估视觉对齐度并调制 logits；AGLA 在输入侧构造增强图像视图，让 LVLM 自身产生互补的 logit 分布后融合。AGLA 的优势是不需要逐 token 调用外部模型（仅需一次 GradCAM 计算），更适合长序列生成；DLC 的优势是动态基线机制能适应序列不同阶段的漂移。

与 HALC 的对比：HALC 通过自适应 FOV 采样 + JSD 双向对比解码在局部粒度上修正幻觉。AGLA 则在全局-局部层面做融合。HALC 更精细（patch 级别），AGLA 更全局（整张增强图像）。

与 VisFlow 的对比：VisFlow 在注意力层面干预（token 级增强 + head 级抑制），作用于模型内部。AGLA 在输入-输出层面干预（增强图像输入 + logit 融合输出），不触碰模型内部。两者可以组合使用。

5.2 GradCAM 作为 prompt 感知机制的巧妙之处

AGLA 最核心的 insight 是：利用已有的图文匹配模型（BLIP-ITM）的可解释性工具（GradCAM）来弥补 LVLM 的注意力缺陷。这避免了重新训练模型或设计复杂的注意力修改机制。GradCAM 的优势在于它天然提供了 prompt-conditioned 的图像区域重要性排序——这正是 LVLM 自身注意力所缺乏的。

5.3 自适应遮蔽比例的简洁设计

$sim (v, t) / 2$ 作为遮蔽比例是一个非常简洁的设计：

图文高度相关 → 说明图中确实存在 prompt 提到的对象 → 可以大胆遮蔽无关区域
图文低度相关 → 可能对象不存在 → 不应过度遮蔽，否则会误导模型

这个设计暗含了一个合理假设：匹配分数高意味着模型有足够信心定位相关区域，因此可以更激进地聚焦。

参考

VCD (CVPR 2024)：对比原始和扰动图像的视觉对比解码，与 AGLA 正交互补
OPERA (CVPR 2024)：过度信任惩罚 + 回溯分配解码策略
DOLA (2023)：对比深浅层 logits 差异提升 LLM 事实性
BLIP (ICML 2022)：AGLA 使用 BLIP-ITM 作为匹配模型
GradCAM (ICCV 2017)：梯度加权类激活映射，AGLA 用于计算 prompt-patch 相关性
DLC (2025)：CLIP 探针动态 logits 校准，同为 training-free 解码策略
HALC (2024)：自适应 FOV 对比解码，局部粒度修正幻觉

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

高效推理

推理增强

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

AGLA：全局-局部注意力组装缓解大视觉-语言模型对象幻觉

一句话总结

一、问题与动机

1.1 注意力缺陷：幻觉的根因之一

1.2 现有方法的不足

1.3 关键洞察

二、核心方法

2.1 Image-Prompt Matching (IPM)

2.2 全局-局部注意力组装

2.3 自适应合理性约束

2.4 温度视角的理解

三、实验结果

3.1 POPE 判别性评估

3.2 多对象幻觉 (ROPE)

3.3 CHAIR 生成式评估

3.4 MME 多类型幻觉

3.5 消融实验

3.6 效率

四、局限性与未来方向

五、个人思考

5.1 与项目中其他论文的联系

5.2 GradCAM 作为 prompt 感知机制的巧妙之处

5.3 自适应遮蔽比例的简洁设计

参考

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

AGLA：全局-局部注意力组装缓解大视觉-语言模型对象幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 注意力缺陷：幻觉的根因之一 ​

1.2 现有方法的不足 ​

1.3 关键洞察 ​

二、核心方法 ​

2.1 Image-Prompt Matching (IPM) ​

2.2 全局-局部注意力组装 ​

2.3 自适应合理性约束 ​

2.4 温度视角的理解 ​

三、实验结果 ​

3.1 POPE 判别性评估 ​

3.2 多对象幻觉 (ROPE) ​

3.3 CHAIR 生成式评估 ​

3.4 MME 多类型幻觉 ​

3.5 消融实验 ​

3.6 效率 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 与项目中其他论文的联系 ​

5.2 GradCAM 作为 prompt 感知机制的巧妙之处 ​

5.3 自适应遮蔽比例的简洁设计 ​

参考 ​

AGLA：全局-局部注意力组装缓解大视觉-语言模型对象幻觉

一句话总结

一、问题与动机

1.1 注意力缺陷：幻觉的根因之一

1.2 现有方法的不足

1.3 关键洞察

二、核心方法

2.1 Image-Prompt Matching (IPM)

2.2 全局-局部注意力组装

2.3 自适应合理性约束

2.4 温度视角的理解

三、实验结果

3.1 POPE 判别性评估

3.2 多对象幻觉 (ROPE)

3.3 CHAIR 生成式评估

3.4 MME 多类型幻觉

3.5 消融实验

3.6 效率

四、局限性与未来方向

五、个人思考

5.1 与项目中其他论文的联系

5.2 GradCAM 作为 prompt 感知机制的巧妙之处

5.3 自适应遮蔽比例的简洁设计

参考