Skip to content

IBD:图像偏置解码缓解 LVLM 幻觉

论文IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding

作者:Lanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu

机构:Singapore University of Technology and Design、Alibaba Group、Zhejiang University

发布时间:2024年2月(CVPR 2025 Workshop

🔗 arXiv

分类标签图像偏置对比解码 注意力权重调节 内容词/功能词 动态自适应 Prompt Tuning Training-Free


一句话总结

通过在注意力矩阵中给图像 token 加放大系数构造图像偏置模型 θ^(与原模型 θ 共享权重),用两者 logit 差做对比解码(CD score)放大图像相关信息、抑制文本先验幻觉;统计分析发现 CD score 对内容词有效但对功能词无效,且 θθ^ 预测过于相似时对比失效,据此设计 Isim×Icon 动态调节机制在两种解码策略间自适应切换,配合 prompt tuning 微调和可信度截断,仅增加 74K 参数即在 4 个 LVLM 上全面超越 VCD、OPERA、Woodpecker 等方法,CHAIRS 在 LLaVA-1.5 上降至 12.7。


一、问题与动机

1.1 文本过度依赖导致幻觉

LVLM 从 LLM 微调而来,在自回归生成过程中倾向于过度依赖语言先验(linguistic priors)而忽视视觉输入。具体表现为:

  • 模型将 next-token prediction 当作纯文本续写任务,不从图像推理
  • 生成越长,后段文本越容易脱离图像内容产生幻觉
  • 训练语料中的共现模式(如 "computer" → "keyboard")被错误延续

1.2 现有方法的不足

方法类别代表工作局限
微调方法HalluciDoctor, LRV-Instruction需大量额外训练数据
辅助网络Woodpecker, ReCaption需外部更强模型或大量额外参数(273M)
对比解码CD, VCD, DoLaCD/DoLa 非视觉专用;VCD 用随机噪声引入不可控扰动
注意力惩罚OPERA需 beam search,计算开销大

核心空白:VCD 用随机高斯噪声构造扰动输入,噪声不可控且缺乏针对性。需要一种基于模型内部机制构造对比信号、同时能区分不同词类特性的方法。

1.3 核心洞察

论文提出两个关键发现:

  1. 内容词 vs 功能词的不对称性:内容词(名词、形容词等)与图像信息高度相关,增强图像注意力后正确 token 的概率会提升;功能词(a, the, to 等)依赖语法结构,强行偏向图像反而有害
  2. 预测相似度的影响:当 θθ^ 的预测分布非常接近时(JSD 低),CD score 被噪声主导,无法有效识别正确 token

二、预备知识

2.1 LVLM 解码框架

给定视觉输入 v 和文本 t,LVLM 自回归生成 y={y1,y2,,yNy}

pθ(yiv,t,y<i)=Softmax(logitθ(yiv,t,y<i))

2.2 对比解码

Contrastive Decoding(Li et al., 2022)的核心思想:用一个"专家模型"和一个"业余模型"的输出分布做差,放大专家优势、抑制共有偏差。

2.3 内容词与功能词

  • 内容词(content words):承载语义信息的词,如名词、动词、形容词——与图像内容直接关联
  • 功能词(function words):构建语法结构的词,如冠词、介词、连词——依赖语言先验而非视觉信息

三、核心方法

3.1 图像偏置模型 θ^

IBD 通过修改注意力权重矩阵(不改变模型参数)构造图像偏置模型。在每一层的注意力计算中,当 key token 对应图像 token 时,给 QK 乘积额外加上放大系数 ϵ

Wm,nl=Softmax(Qml(Knl)D+cm,n+M)cm,n=ϵif KnlTvl,else 0

其中 Ql,Kl 是第 l 层的 query/key,M 是因果掩码,D 是特征维度,Tvl 是图像 token。

用大白话说:就是在注意力机制的"打分"环节,给所有指向图像 token 的 key 额外加分,让模型更"看重"图像信息。这相当于在不改变任何参数的情况下,通过调整注意力权重的偏置,把模型从"文本偏置"调向"图像偏置"。

关键特性θ^θ 共享全部参数权重,仅注意力计算方式不同——推理时无需额外加载参数。

3.2 对比解码核心公式

基于 θθ^ 的输出 logit,定义 CD score:

LCD=logitθ^(yiv,t,y<i)logitθ(yiv,t,y<i)

假设:在每个时间步,CD score 最高的候选 token 更可能是不含文本偏置幻觉的正确 token。

直觉解释:θ^ 更依赖图像,θ 可能过度依赖文本。两者之差放大了"图像支持但文本先验不支持"的 token——这些恰好是被文本先验压制的正确视觉信息。

3.3 假设验证:统计分析

论文在 COCO Caption 数据集上对 InstructBLIP、MiniGPT-4、LLaVA-1.5、Shikra 四个模型进行了系统性统计验证。

发现一:内容词 vs 功能词的不对称性

词类ground truth 拥有最高 CD score 的比例
内容词70%–79%(跨4个模型)
功能词仅 18%–25%

对于内容词,CD score 最高的 token 大概率就是正确 token(假设成立);对于功能词,假设不成立——图像偏置模型反而会降低功能词的预测准确度。

解释:内容词预测依赖图像信息,增强图像注意力后正确 token 概率上升;功能词预测依赖语法规则,强行偏向图像是有害的。

发现二:预测相似度的影响

用 Jensen-Shannon 散度 di 量化 θθ^ 预测分布的差异:

di=JSD(pθ(yiv,t,y<i)pθ^(yiv,t,y<i))

统计结果显示:di 越小(两个模型预测越相似),ground truth 拥有最高 CD score 的比例越低——从 JSD > 1.4 时的 ~80% 骤降至 JSD < 0.2 时的 ~3%–10%。

解释:当两个模型预测非常接近时,可能是因为:(1) θ 本身就已高度依赖图像,增强无效;(2) "良性文本偏置幻觉"——文本先验恰好与图像内容一致(如图中确实有 keyboard,而 "computer" → "keyboard" 的文本先验恰好正确)。此时 CD score 数值很小,被噪声主导。

3.4 动态调节机制

基于上述两个发现,IBD 设计了自适应策略,在标准最大似然解码和图像偏置对比解码之间动态切换:

yiSoftmax(logitθ(yiv,t,y<i)+αILCD)I=Min{Isim,Icon}

其中 α 是缩放因子,IsimIcon 是两个指示器,取较小值作为最终权重。

Isim:预测相似度指示器

Isim=JSD(pθ(yiv,t,y<i)pθ^(yiv,t,y<i))

θθ^ 预测越不同,Isim 越大,CD score 越可靠,对比解码权重越高。

Icon:内容词指示器

直接用 POS 标注工具判断是否为内容词存在子词歧义问题(如 "on" 可能是 "onion" 的子词而非介词)。IBD 采用隐式方法——利用 LLM 的 early exit 特性:

  • 功能词在中间层(第 24 层)就已确定预测结果,后续层几乎不变
  • 内容词在高层仍持续改变预测
Icon=JSD(pθ(yiv,t,y<i)p~θ(yiv,t,y<i))

其中 p~θ 是从第 24 层 early exit 得到的预测。中间层与最终层预测差异越大,越可能是内容词,Icon 越大。

动态调节的直觉:当 I 很小时(功能词或预测相似),αILCD0,退化为标准最大似然解码;当 I 较大时(内容词且预测差异大),对比解码全力生效。

3.5 完整方法

在动态调节基础上加入两个改进:

改进一:Prompt Tuning 微调 θ^

修改注意力结构可能引入噪声。在 θ^ 的 LLM 输入前添加一组可学习 prompt P(仅 74K 参数),在 COCO Caption 上微调适应修改后的注意力架构:

LCD=logitθ^(yiP,v,t,y<i)logitθ(yiv,t,y<i)

比 LoRA 更轻量,不影响原始模型权重。

改进二:自适应可信度约束

限制候选 token 集合为原始模型高概率输出的子集:

Vhead(y<i)={yiV:pθ(yiv,t,y<i)βmaxwpθ(wv,t,y<i)}

防止对比解码推升原本不可信的低概率 token。

完整预测公式

yiSoftmax(logitθ(yiv,t,y<i)+αILCD),s.t. yiVhead(y<i)

其中 I=Min{Isim,Icon}

3.6 关于图像偏置幻觉的讨论

论文坦诚讨论了图像偏置幻觉的存在——当视觉内容与模型世界知识冲突时(如足球明星 C 罗拿着乒乓球拍,模型因关注球拍而错误判断他是乒乓球运动员),过度依赖图像也会产生幻觉。但统计验证(GPT-4V 评估 500 个错误样本)显示仅 4% 属于图像偏置幻觉——在主流评估框架中这是少数情况。


四、实验结果

4.1 CHAIR 评估(MSCOCO 验证集)

方法InstructBLIP CS↓ / CIMiniGPT-4 CS↓ / CILLaVA-1.5 CS↓ / CIShikra CS↓ / CI
Greedy30.0 / 14.524.2 / 8.220.6 / 6.222.0 / 7.0
VCD19.7 / 7.023.7 / 8.018.9 / 5.719.5 / 6.2
DoLa22.2 / 7.124.2 / 8.220.4 / 6.320.2 / 6.3
OPERA16.6 / 6.822.6 / 8.214.2 / 5.214.2 / 5.9
Woodpecker15.5 / 6.521.5 / 7.813.4 / 4.813.6 / 5.1
IBD15.0 / 6.221.0 / 7.412.7 / 4.513.2 / 5.2

IBD 在 4 个模型的全部 8 个指标上均取得最优,且仅需 74K 额外参数(vs Woodpecker 273M + GPT-4 / ReCaption 需调用 GPT-4)。

4.2 GPT-4 辅助评估(VG 数据集)

在 HSPI(每张图幻觉句子数)、HWPI(每张图幻觉词数)、HSR(幻觉句子比例)、HWR(幻觉词比例)四个指标上,IBD 在 4 个模型上均显著优于 Greedy、CD、VCD、DoLa、OPERA,覆盖对象级、属性级和关系级幻觉。

4.3 GPT-4V 辅助评估(MSCOCO)

方法InstructBLIP C/DMiniGPT-4 C/DLLaVA-1.5 C/DShikra C/D
VCD6.0 / 5.85.5 / 5.26.4 / 5.06.1 / 5.1
OPERA6.0 / 5.65.2 / 5.06.3 / 4.95.9 / 5.0
IBD6.3 / 6.15.8 / 5.46.7 / 5.56.6 / 5.8

IBD 在 Correctness 和 Detailedness 两个维度均最优。Shikra 上 Detailedness 超越第二名 11.5%——因为 IBD 更充分利用图像信息,生成描述更全面、遗漏更少。

4.4 消融实验

各组件贡献(LLaVA-1.5 CHAIR 指标):

配置CSCI
IBD (完整)12.74.5
w/o 动态调节 (DA)18.05.5
w/o Prompt P15.85.0
w/o 可信度约束 (APC)13.54.6
w/o Isim13.64.8
w/o Icon16.55.1
用 POS 标注替代 Icon14.54.8
  • 动态调节是最关键组件(移除后 CS 从 12.7 上升到 18.0)
  • IconIsim 更重要——区分内容词/功能词是核心
  • 隐式 early exit 方法优于显式 POS 标注(避免子词歧义)

超参数 ϵ 的影响1.5<ϵ<3 范围内性能稳定;过小则图像偏置不足,过大则引入噪声。默认 ϵ=2


五、局限性与未来方向

5.1 图像偏置幻觉未解决

论文明确承认当视觉内容与世界知识冲突时(如图中足球明星在打乒乓球),IBD 的图像偏置策略可能加剧错误推断。虽然在主流评估中仅占 4%,但在需要深层推理的场景中可能更为突出。

5.2 推理开销

与 VCD 类似,IBD 需要 θθ^ 两次前向传播(虽然 θ^ 共享权重,但注意力计算不同),推理延迟约 2×。同时还需第 24 层的 early exit 预测用于计算 Icon

5.3 Prompt Tuning 依赖 COCO

θ^ 的 prompt P 在 COCO Caption 上微调,对 COCO 领域外的图像(如医学、遥感、专业领域)泛化性未验证。

5.4 仅在 7B 模型上验证

所有实验基于 7B 参数的 LVLM。对更大规模模型(13B、70B+)的效果未知,early exit 层的最优选择也可能随模型规模变化。


六、个人思考

6.1 与项目内其他对比解码方法的核心区别

方法对比构造方式对比空间动态调节额外参数
IBD修改注意力权重偏置图像 token模型内部(注意力)Isim×Icon 双指标74K (prompt)
VCD高斯噪声扰动输入图像输入空间(图像)仅可信度约束0
ICD角色前缀扰动指令输入空间(文本)自适应截断0
HIO训练 Evil LVLM 放大幻觉模型空间Logit 约束全模型
DoLa对比不同层的预测模型内部(层间)动态层选择0

IBD 最大的方法论贡献在于从注意力机制内部构造对比信号——不是扰动输入,而是让模型"看"同样的输入但"关注"不同的部分。这比外部扰动更可控、更可解释。

6.2 统计分析的方法论价值

IBD 最令人印象深刻的部分不是方法本身,而是对假设适用条件的严谨统计验证。大多数对比解码工作默认"对比信号全局有效",IBD 则明确揭示了两个失效条件(功能词、预测相似),并为此设计了针对性的动态调节。这种"先验证假设边界,再设计自适应机制"的范式值得借鉴。

6.3 与 VCD 的辩证关系

IBD 和 VCD 可以看作同一思路的两种实现:VCD 从外部(输入噪声)制造"弱视觉"参考分布,IBD 从内部(注意力权重)制造"强视觉"参考分布。方向相反但目标一致——拉大正确 token 和幻觉 token 的概率差距。IBD 的优势在于对比信号更可控(ϵ 直接调节偏置强度),VCD 的优势在于完全零参数、零训练。

6.4 Early Exit 作为词类隐式判别器

用 early exit 层间差异替代 POS 标注来判断内容词/功能词的策略非常巧妙——既避免了子词歧义,又利用了 LLM 内在的分层处理特性。这一发现来自 DoLa(Chuang et al., 2023),IBD 将其从"层间对比解码"扩展到了"词类判别"的新用途,体现了跨方法迁移 insight 的价值。


参考

  • VCD(Leng et al., 2023):视觉对比解码,用高斯噪声图像做对比——IBD 从模型内部而非输入空间构造对比信号
  • DoLa(Chuang et al., 2023):层间对比解码——IBD 借鉴其 early exit 发现用于隐式词类判别
  • Contrastive Decoding(Li et al., 2022):开放文本对比解码——IBD 的可信度约束直接继承于此
  • OPERA(Huang et al., 2023):注意力过度信任惩罚——同为 LVLM 幻觉缓解解码方法,IBD 在 CHAIR 上全面超越
  • Woodpecker(Yin et al., 2023):生成后修正流水线——IBD 以 74K vs 273M 参数取得更优效果