IBD：图像偏置解码缓解 LVLM 幻觉

论文：IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding
作者：Lanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu
机构：Singapore University of Technology and Design、Alibaba Group、Zhejiang University
发布时间：2024年2月（CVPR 2025 Workshop）
🔗 arXiv
分类标签：图像偏置对比解码 注意力权重调节 内容词/功能词 动态自适应 Prompt Tuning Training-Free

一句话总结

通过在注意力矩阵中给图像 token 加放大系数构造图像偏置模型 $\hat{θ}$ （与原模型 $θ$ 共享权重），用两者 logit 差做对比解码（CD score）放大图像相关信息、抑制文本先验幻觉；统计分析发现 CD score 对内容词有效但对功能词无效，且 $θ$ 与 $\hat{θ}$ 预测过于相似时对比失效，据此设计 $I_{s i m} \times I_{c o n}$ 动态调节机制在两种解码策略间自适应切换，配合 prompt tuning 微调和可信度截断，仅增加 74K 参数即在 4 个 LVLM 上全面超越 VCD、OPERA、Woodpecker 等方法，CHAIR $_{S}$ 在 LLaVA-1.5 上降至 12.7。

一、问题与动机

1.1 文本过度依赖导致幻觉

LVLM 从 LLM 微调而来，在自回归生成过程中倾向于过度依赖语言先验（linguistic priors）而忽视视觉输入。具体表现为：

模型将 next-token prediction 当作纯文本续写任务，不从图像推理
生成越长，后段文本越容易脱离图像内容产生幻觉
训练语料中的共现模式（如 "computer" → "keyboard"）被错误延续

1.2 现有方法的不足

方法类别	代表工作	局限
微调方法	HalluciDoctor, LRV-Instruction	需大量额外训练数据
辅助网络	Woodpecker, ReCaption	需外部更强模型或大量额外参数（273M）
对比解码	CD, VCD, DoLa	CD/DoLa 非视觉专用；VCD 用随机噪声引入不可控扰动
注意力惩罚	OPERA	需 beam search，计算开销大

核心空白：VCD 用随机高斯噪声构造扰动输入，噪声不可控且缺乏针对性。需要一种基于模型内部机制构造对比信号、同时能区分不同词类特性的方法。

1.3 核心洞察

论文提出两个关键发现：

内容词 vs 功能词的不对称性：内容词（名词、形容词等）与图像信息高度相关，增强图像注意力后正确 token 的概率会提升；功能词（a, the, to 等）依赖语法结构，强行偏向图像反而有害
预测相似度的影响：当 $θ$ 和 $\hat{θ}$ 的预测分布非常接近时（JSD 低），CD score 被噪声主导，无法有效识别正确 token

二、预备知识

2.1 LVLM 解码框架

给定视觉输入 $v$ 和文本 $t$ ，LVLM 自回归生成 $y = {y_{1}, y_{2}, \dots, y_{N_{y}}}$ ：

p_{θ} (y_{i} ∣ v, t, y_{< i}) = Softmax ({logit}_{θ} (y_{i} ∣ v, t, y_{< i}))

2.2 对比解码

Contrastive Decoding（Li et al., 2022）的核心思想：用一个"专家模型"和一个"业余模型"的输出分布做差，放大专家优势、抑制共有偏差。

2.3 内容词与功能词

内容词（content words）：承载语义信息的词，如名词、动词、形容词——与图像内容直接关联
功能词（function words）：构建语法结构的词，如冠词、介词、连词——依赖语言先验而非视觉信息

三、核心方法

3.1 图像偏置模型 $\hat{θ}$

IBD 通过修改注意力权重矩阵（不改变模型参数）构造图像偏置模型。在每一层的注意力计算中，当 key token 对应图像 token 时，给 QK 乘积额外加上放大系数 $ϵ$ ：

W_{m, n}^{l} = Softmax (\frac{Q_{m}^{l} (K_{n}^{l})^{⊤}}{\sqrt{D}} + c_{m, n} + M)

c_{m, n} = ϵ if K_{n}^{l} \leftarrow T_{v}^{l}, else 0

其中 $Q^{l}, K^{l}$ 是第 $l$ 层的 query/key， $M$ 是因果掩码， $D$ 是特征维度， $T_{v}^{l}$ 是图像 token。

用大白话说：就是在注意力机制的"打分"环节，给所有指向图像 token 的 key 额外加分，让模型更"看重"图像信息。这相当于在不改变任何参数的情况下，通过调整注意力权重的偏置，把模型从"文本偏置"调向"图像偏置"。

关键特性： $\hat{θ}$ 与 $θ$ 共享全部参数权重，仅注意力计算方式不同——推理时无需额外加载参数。

3.2 对比解码核心公式

基于 $θ$ 和 $\hat{θ}$ 的输出 logit，定义 CD score：

L_{C D} = {logit}_{\hat{θ}} (y_{i} ∣ v, t, y_{< i}) - {logit}_{θ} (y_{i} ∣ v, t, y_{< i})

假设：在每个时间步，CD score 最高的候选 token 更可能是不含文本偏置幻觉的正确 token。

直觉解释： $\hat{θ}$ 更依赖图像， $θ$ 可能过度依赖文本。两者之差放大了"图像支持但文本先验不支持"的 token——这些恰好是被文本先验压制的正确视觉信息。

3.3 假设验证：统计分析

论文在 COCO Caption 数据集上对 InstructBLIP、MiniGPT-4、LLaVA-1.5、Shikra 四个模型进行了系统性统计验证。

发现一：内容词 vs 功能词的不对称性

词类	ground truth 拥有最高 CD score 的比例
内容词	70%–79%（跨4个模型）
功能词	仅 18%–25%

对于内容词，CD score 最高的 token 大概率就是正确 token（假设成立）；对于功能词，假设不成立——图像偏置模型反而会降低功能词的预测准确度。

解释：内容词预测依赖图像信息，增强图像注意力后正确 token 概率上升；功能词预测依赖语法规则，强行偏向图像是有害的。

发现二：预测相似度的影响

用 Jensen-Shannon 散度 $d_{i}$ 量化 $θ$ 和 $\hat{θ}$ 预测分布的差异：

d_{i} = JSD (p_{θ} (y_{i} ∣ v, t, y_{< i}) ∥ p_{\hat{θ}} (y_{i} ∣ v, t, y_{< i}))

统计结果显示： $d_{i}$ 越小（两个模型预测越相似），ground truth 拥有最高 CD score 的比例越低——从 JSD > 1.4 时的 ~80% 骤降至 JSD < 0.2 时的 ~3%–10%。

解释：当两个模型预测非常接近时，可能是因为：(1) $θ$ 本身就已高度依赖图像，增强无效；(2) "良性文本偏置幻觉"——文本先验恰好与图像内容一致（如图中确实有 keyboard，而 "computer" → "keyboard" 的文本先验恰好正确）。此时 CD score 数值很小，被噪声主导。

3.4 动态调节机制

基于上述两个发现，IBD 设计了自适应策略，在标准最大似然解码和图像偏置对比解码之间动态切换：

y_{i} \sim Softmax ({logit}_{θ} (y_{i} ∣ v, t, y_{< i}) + α \cdot I \cdot L_{C D})

I = Min {I_{s i m}, I_{c o n}}

其中 $α$ 是缩放因子， $I_{s i m}$ 和 $I_{c o n}$ 是两个指示器，取较小值作为最终权重。

$I_{s i m}$ ：预测相似度指示器

I_{s i m} = JSD (p_{θ} (y_{i} ∣ v, t, y_{< i}) ∥ p_{\hat{θ}} (y_{i} ∣ v, t, y_{< i}))

$θ$ 和 $\hat{θ}$ 预测越不同， $I_{s i m}$ 越大，CD score 越可靠，对比解码权重越高。

$I_{c o n}$ ：内容词指示器

直接用 POS 标注工具判断是否为内容词存在子词歧义问题（如 "on" 可能是 "onion" 的子词而非介词）。IBD 采用隐式方法——利用 LLM 的 early exit 特性：

功能词在中间层（第 24 层）就已确定预测结果，后续层几乎不变
内容词在高层仍持续改变预测

I_{c o n} = JSD (p_{θ} (y_{i} ∣ v, t, y_{< i}) ∥ {\tilde{p}}_{θ} (y_{i} ∣ v, t, y_{< i}))

其中 ${\tilde{p}}_{θ}$ 是从第 24 层 early exit 得到的预测。中间层与最终层预测差异越大，越可能是内容词， $I_{c o n}$ 越大。

动态调节的直觉：当 $I$ 很小时（功能词或预测相似）， $α \cdot I \cdot L_{C D} \approx 0$ ，退化为标准最大似然解码；当 $I$ 较大时（内容词且预测差异大），对比解码全力生效。

3.5 完整方法

在动态调节基础上加入两个改进：

改进一：Prompt Tuning 微调 $\hat{θ}$

修改注意力结构可能引入噪声。在 $\hat{θ}$ 的 LLM 输入前添加一组可学习 prompt $P$ （仅 74K 参数），在 COCO Caption 上微调适应修改后的注意力架构：

L_{C D} = {logit}_{\hat{θ}} (y_{i} ∣ P, v, t, y_{< i}) - {logit}_{θ} (y_{i} ∣ v, t, y_{< i})

比 LoRA 更轻量，不影响原始模型权重。

改进二：自适应可信度约束

限制候选 token 集合为原始模型高概率输出的子集：

V_{h e a d} (y_{< i}) = {y_{i} \in V : p_{θ} (y_{i} ∣ v, t, y_{< i}) \geq β \cdot max_{w} p_{θ} (w ∣ v, t, y_{< i})}

防止对比解码推升原本不可信的低概率 token。

完整预测公式：

y_{i} \sim Softmax ({logit}_{θ} (y_{i} ∣ v, t, y_{< i}) + α \cdot I \cdot L_{C D}), s.t. y_{i} \in V_{h e a d} (y_{< i})

其中 $I = Min {I_{s i m}, I_{c o n}}$ 。

3.6 关于图像偏置幻觉的讨论

论文坦诚讨论了图像偏置幻觉的存在——当视觉内容与模型世界知识冲突时（如足球明星 C 罗拿着乒乓球拍，模型因关注球拍而错误判断他是乒乓球运动员），过度依赖图像也会产生幻觉。但统计验证（GPT-4V 评估 500 个错误样本）显示仅 4% 属于图像偏置幻觉——在主流评估框架中这是少数情况。

四、实验结果

4.1 CHAIR 评估（MSCOCO 验证集）

方法	InstructBLIP $C_{S}$ ↓ / $C_{I}$ ↓	MiniGPT-4 $C_{S}$ ↓ / $C_{I}$ ↓	LLaVA-1.5 $C_{S}$ ↓ / $C_{I}$ ↓	Shikra $C_{S}$ ↓ / $C_{I}$ ↓
Greedy	30.0 / 14.5	24.2 / 8.2	20.6 / 6.2	22.0 / 7.0
VCD	19.7 / 7.0	23.7 / 8.0	18.9 / 5.7	19.5 / 6.2
DoLa	22.2 / 7.1	24.2 / 8.2	20.4 / 6.3	20.2 / 6.3
OPERA	16.6 / 6.8	22.6 / 8.2	14.2 / 5.2	14.2 / 5.9
Woodpecker	15.5 / 6.5	21.5 / 7.8	13.4 / 4.8	13.6 / 5.1
IBD	15.0 / 6.2	21.0 / 7.4	12.7 / 4.5	13.2 / 5.2

IBD 在 4 个模型的全部 8 个指标上均取得最优，且仅需 74K 额外参数（vs Woodpecker 273M + GPT-4 / ReCaption 需调用 GPT-4）。

4.2 GPT-4 辅助评估（VG 数据集）

在 HSPI（每张图幻觉句子数）、HWPI（每张图幻觉词数）、HSR（幻觉句子比例）、HWR（幻觉词比例）四个指标上，IBD 在 4 个模型上均显著优于 Greedy、CD、VCD、DoLa、OPERA，覆盖对象级、属性级和关系级幻觉。

4.3 GPT-4V 辅助评估（MSCOCO）

方法	InstructBLIP C/D	MiniGPT-4 C/D	LLaVA-1.5 C/D	Shikra C/D
VCD	6.0 / 5.8	5.5 / 5.2	6.4 / 5.0	6.1 / 5.1
OPERA	6.0 / 5.6	5.2 / 5.0	6.3 / 4.9	5.9 / 5.0
IBD	6.3 / 6.1	5.8 / 5.4	6.7 / 5.5	6.6 / 5.8

IBD 在 Correctness 和 Detailedness 两个维度均最优。Shikra 上 Detailedness 超越第二名 11.5%——因为 IBD 更充分利用图像信息，生成描述更全面、遗漏更少。

4.4 消融实验

各组件贡献（LLaVA-1.5 CHAIR 指标）：

配置	$C_{S}$ ↓	$C_{I}$ ↓
IBD (完整)	12.7	4.5
w/o 动态调节 (DA)	18.0	5.5
w/o Prompt $P$	15.8	5.0
w/o 可信度约束 (APC)	13.5	4.6
w/o $I_{s i m}$	13.6	4.8
w/o $I_{c o n}$	16.5	5.1
用 POS 标注替代 $I_{c o n}$	14.5	4.8

动态调节是最关键组件（移除后 $C_{S}$ 从 12.7 上升到 18.0）
$I_{c o n}$ 比 $I_{s i m}$ 更重要——区分内容词/功能词是核心
隐式 early exit 方法优于显式 POS 标注（避免子词歧义）

超参数 $ϵ$ 的影响： $1.5 < ϵ < 3$ 范围内性能稳定；过小则图像偏置不足，过大则引入噪声。默认 $ϵ = 2$ 。

五、局限性与未来方向

5.1 图像偏置幻觉未解决

论文明确承认当视觉内容与世界知识冲突时（如图中足球明星在打乒乓球），IBD 的图像偏置策略可能加剧错误推断。虽然在主流评估中仅占 4%，但在需要深层推理的场景中可能更为突出。

5.2 推理开销

与 VCD 类似，IBD 需要 $θ$ 和 $\hat{θ}$ 两次前向传播（虽然 $\hat{θ}$ 共享权重，但注意力计算不同），推理延迟约 2×。同时还需第 24 层的 early exit 预测用于计算 $I_{c o n}$ 。

5.3 Prompt Tuning 依赖 COCO

$\hat{θ}$ 的 prompt $P$ 在 COCO Caption 上微调，对 COCO 领域外的图像（如医学、遥感、专业领域）泛化性未验证。

5.4 仅在 7B 模型上验证

所有实验基于 7B 参数的 LVLM。对更大规模模型（13B、70B+）的效果未知，early exit 层的最优选择也可能随模型规模变化。

六、个人思考

6.1 与项目内其他对比解码方法的核心区别

方法	对比构造方式	对比空间	动态调节	额外参数
IBD	修改注意力权重偏置图像 token	模型内部（注意力）	$I_{s i m} \times I_{c o n}$ 双指标	74K (prompt)
VCD	高斯噪声扰动输入图像	输入空间（图像）	仅可信度约束	0
ICD	角色前缀扰动指令	输入空间（文本）	自适应截断	0
HIO	训练 Evil LVLM 放大幻觉	模型空间	Logit 约束	全模型
DoLa	对比不同层的预测	模型内部（层间）	动态层选择	0

IBD 最大的方法论贡献在于从注意力机制内部构造对比信号——不是扰动输入，而是让模型"看"同样的输入但"关注"不同的部分。这比外部扰动更可控、更可解释。

6.2 统计分析的方法论价值

IBD 最令人印象深刻的部分不是方法本身，而是对假设适用条件的严谨统计验证。大多数对比解码工作默认"对比信号全局有效"，IBD 则明确揭示了两个失效条件（功能词、预测相似），并为此设计了针对性的动态调节。这种"先验证假设边界，再设计自适应机制"的范式值得借鉴。

6.3 与 VCD 的辩证关系

IBD 和 VCD 可以看作同一思路的两种实现：VCD 从外部（输入噪声）制造"弱视觉"参考分布，IBD 从内部（注意力权重）制造"强视觉"参考分布。方向相反但目标一致——拉大正确 token 和幻觉 token 的概率差距。IBD 的优势在于对比信号更可控（ $ϵ$ 直接调节偏置强度），VCD 的优势在于完全零参数、零训练。

6.4 Early Exit 作为词类隐式判别器

用 early exit 层间差异替代 POS 标注来判断内容词/功能词的策略非常巧妙——既避免了子词歧义，又利用了 LLM 内在的分层处理特性。这一发现来自 DoLa（Chuang et al., 2023），IBD 将其从"层间对比解码"扩展到了"词类判别"的新用途，体现了跨方法迁移 insight 的价值。

参考

VCD（Leng et al., 2023）：视觉对比解码，用高斯噪声图像做对比——IBD 从模型内部而非输入空间构造对比信号
DoLa（Chuang et al., 2023）：层间对比解码——IBD 借鉴其 early exit 发现用于隐式词类判别
Contrastive Decoding（Li et al., 2022）：开放文本对比解码——IBD 的可信度约束直接继承于此
OPERA（Huang et al., 2023）：注意力过度信任惩罚——同为 LVLM 幻觉缓解解码方法，IBD 在 CHAIR 上全面超越
Woodpecker（Yin et al., 2023）：生成后修正流水线——IBD 以 74K vs 273M 参数取得更优效果

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

IBD：图像偏置解码缓解 LVLM 幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 文本过度依赖导致幻觉 ​

1.2 现有方法的不足 ​

1.3 核心洞察 ​

二、预备知识 ​

2.1 LVLM 解码框架 ​

2.2 对比解码 ​

2.3 内容词与功能词 ​

三、核心方法 ​

3.1 图像偏置模型 θ^ ​

3.2 对比解码核心公式 ​

3.3 假设验证：统计分析 ​

3.4 动态调节机制 ​

3.5 完整方法 ​

3.6 关于图像偏置幻觉的讨论 ​

四、实验结果 ​

4.1 CHAIR 评估（MSCOCO 验证集） ​

4.2 GPT-4 辅助评估（VG 数据集） ​

4.3 GPT-4V 辅助评估（MSCOCO） ​

4.4 消融实验 ​

五、局限性与未来方向 ​

5.1 图像偏置幻觉未解决 ​

5.2 推理开销 ​

5.3 Prompt Tuning 依赖 COCO ​

5.4 仅在 7B 模型上验证 ​

六、个人思考 ​

6.1 与项目内其他对比解码方法的核心区别 ​

6.2 统计分析的方法论价值 ​

6.3 与 VCD 的辩证关系 ​

6.4 Early Exit 作为词类隐式判别器 ​

参考 ​