IBD:图像偏置解码缓解 LVLM 幻觉
论文:IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding
作者:Lanyun Zhu, Deyi Ji, Tianrun Chen, Peng Xu, Jieping Ye, Jun Liu
机构:Singapore University of Technology and Design、Alibaba Group、Zhejiang University
发布时间:2024年2月(CVPR 2025 Workshop)
🔗 arXiv
分类标签:
图像偏置对比解码注意力权重调节内容词/功能词动态自适应Prompt TuningTraining-Free
一句话总结
通过在注意力矩阵中给图像 token 加放大系数构造图像偏置模型
一、问题与动机
1.1 文本过度依赖导致幻觉
LVLM 从 LLM 微调而来,在自回归生成过程中倾向于过度依赖语言先验(linguistic priors)而忽视视觉输入。具体表现为:
- 模型将 next-token prediction 当作纯文本续写任务,不从图像推理
- 生成越长,后段文本越容易脱离图像内容产生幻觉
- 训练语料中的共现模式(如 "computer" → "keyboard")被错误延续
1.2 现有方法的不足
| 方法类别 | 代表工作 | 局限 |
|---|---|---|
| 微调方法 | HalluciDoctor, LRV-Instruction | 需大量额外训练数据 |
| 辅助网络 | Woodpecker, ReCaption | 需外部更强模型或大量额外参数(273M) |
| 对比解码 | CD, VCD, DoLa | CD/DoLa 非视觉专用;VCD 用随机噪声引入不可控扰动 |
| 注意力惩罚 | OPERA | 需 beam search,计算开销大 |
核心空白:VCD 用随机高斯噪声构造扰动输入,噪声不可控且缺乏针对性。需要一种基于模型内部机制构造对比信号、同时能区分不同词类特性的方法。
1.3 核心洞察
论文提出两个关键发现:
- 内容词 vs 功能词的不对称性:内容词(名词、形容词等)与图像信息高度相关,增强图像注意力后正确 token 的概率会提升;功能词(a, the, to 等)依赖语法结构,强行偏向图像反而有害
- 预测相似度的影响:当
和 的预测分布非常接近时(JSD 低),CD score 被噪声主导,无法有效识别正确 token
二、预备知识
2.1 LVLM 解码框架
给定视觉输入
2.2 对比解码
Contrastive Decoding(Li et al., 2022)的核心思想:用一个"专家模型"和一个"业余模型"的输出分布做差,放大专家优势、抑制共有偏差。
2.3 内容词与功能词
- 内容词(content words):承载语义信息的词,如名词、动词、形容词——与图像内容直接关联
- 功能词(function words):构建语法结构的词,如冠词、介词、连词——依赖语言先验而非视觉信息
三、核心方法
3.1 图像偏置模型
IBD 通过修改注意力权重矩阵(不改变模型参数)构造图像偏置模型。在每一层的注意力计算中,当 key token 对应图像 token 时,给 QK 乘积额外加上放大系数
其中
用大白话说:就是在注意力机制的"打分"环节,给所有指向图像 token 的 key 额外加分,让模型更"看重"图像信息。这相当于在不改变任何参数的情况下,通过调整注意力权重的偏置,把模型从"文本偏置"调向"图像偏置"。
关键特性:
3.2 对比解码核心公式
基于
假设:在每个时间步,CD score 最高的候选 token 更可能是不含文本偏置幻觉的正确 token。
直觉解释:
3.3 假设验证:统计分析
论文在 COCO Caption 数据集上对 InstructBLIP、MiniGPT-4、LLaVA-1.5、Shikra 四个模型进行了系统性统计验证。
发现一:内容词 vs 功能词的不对称性
| 词类 | ground truth 拥有最高 CD score 的比例 |
|---|---|
| 内容词 | 70%–79%(跨4个模型) |
| 功能词 | 仅 18%–25% |
对于内容词,CD score 最高的 token 大概率就是正确 token(假设成立);对于功能词,假设不成立——图像偏置模型反而会降低功能词的预测准确度。
解释:内容词预测依赖图像信息,增强图像注意力后正确 token 概率上升;功能词预测依赖语法规则,强行偏向图像是有害的。
发现二:预测相似度的影响
用 Jensen-Shannon 散度
统计结果显示:
解释:当两个模型预测非常接近时,可能是因为:(1)
3.4 动态调节机制
基于上述两个发现,IBD 设计了自适应策略,在标准最大似然解码和图像偏置对比解码之间动态切换:
其中
直接用 POS 标注工具判断是否为内容词存在子词歧义问题(如 "on" 可能是 "onion" 的子词而非介词)。IBD 采用隐式方法——利用 LLM 的 early exit 特性:
- 功能词在中间层(第 24 层)就已确定预测结果,后续层几乎不变
- 内容词在高层仍持续改变预测
其中
动态调节的直觉:当
3.5 完整方法
在动态调节基础上加入两个改进:
改进一:Prompt Tuning 微调
修改注意力结构可能引入噪声。在
比 LoRA 更轻量,不影响原始模型权重。
改进二:自适应可信度约束
限制候选 token 集合为原始模型高概率输出的子集:
防止对比解码推升原本不可信的低概率 token。
完整预测公式:
其中
3.6 关于图像偏置幻觉的讨论
论文坦诚讨论了图像偏置幻觉的存在——当视觉内容与模型世界知识冲突时(如足球明星 C 罗拿着乒乓球拍,模型因关注球拍而错误判断他是乒乓球运动员),过度依赖图像也会产生幻觉。但统计验证(GPT-4V 评估 500 个错误样本)显示仅 4% 属于图像偏置幻觉——在主流评估框架中这是少数情况。
四、实验结果
4.1 CHAIR 评估(MSCOCO 验证集)
| 方法 | InstructBLIP | MiniGPT-4 | LLaVA-1.5 | Shikra |
|---|---|---|---|---|
| Greedy | 30.0 / 14.5 | 24.2 / 8.2 | 20.6 / 6.2 | 22.0 / 7.0 |
| VCD | 19.7 / 7.0 | 23.7 / 8.0 | 18.9 / 5.7 | 19.5 / 6.2 |
| DoLa | 22.2 / 7.1 | 24.2 / 8.2 | 20.4 / 6.3 | 20.2 / 6.3 |
| OPERA | 16.6 / 6.8 | 22.6 / 8.2 | 14.2 / 5.2 | 14.2 / 5.9 |
| Woodpecker | 15.5 / 6.5 | 21.5 / 7.8 | 13.4 / 4.8 | 13.6 / 5.1 |
| IBD | 15.0 / 6.2 | 21.0 / 7.4 | 12.7 / 4.5 | 13.2 / 5.2 |
IBD 在 4 个模型的全部 8 个指标上均取得最优,且仅需 74K 额外参数(vs Woodpecker 273M + GPT-4 / ReCaption 需调用 GPT-4)。
4.2 GPT-4 辅助评估(VG 数据集)
在 HSPI(每张图幻觉句子数)、HWPI(每张图幻觉词数)、HSR(幻觉句子比例)、HWR(幻觉词比例)四个指标上,IBD 在 4 个模型上均显著优于 Greedy、CD、VCD、DoLa、OPERA,覆盖对象级、属性级和关系级幻觉。
4.3 GPT-4V 辅助评估(MSCOCO)
| 方法 | InstructBLIP C/D | MiniGPT-4 C/D | LLaVA-1.5 C/D | Shikra C/D |
|---|---|---|---|---|
| VCD | 6.0 / 5.8 | 5.5 / 5.2 | 6.4 / 5.0 | 6.1 / 5.1 |
| OPERA | 6.0 / 5.6 | 5.2 / 5.0 | 6.3 / 4.9 | 5.9 / 5.0 |
| IBD | 6.3 / 6.1 | 5.8 / 5.4 | 6.7 / 5.5 | 6.6 / 5.8 |
IBD 在 Correctness 和 Detailedness 两个维度均最优。Shikra 上 Detailedness 超越第二名 11.5%——因为 IBD 更充分利用图像信息,生成描述更全面、遗漏更少。
4.4 消融实验
各组件贡献(LLaVA-1.5 CHAIR 指标):
| 配置 | ||
|---|---|---|
| IBD (完整) | 12.7 | 4.5 |
| w/o 动态调节 (DA) | 18.0 | 5.5 |
| w/o Prompt | 15.8 | 5.0 |
| w/o 可信度约束 (APC) | 13.5 | 4.6 |
| w/o | 13.6 | 4.8 |
| w/o | 16.5 | 5.1 |
| 用 POS 标注替代 | 14.5 | 4.8 |
- 动态调节是最关键组件(移除后
从 12.7 上升到 18.0) 比 更重要——区分内容词/功能词是核心 - 隐式 early exit 方法优于显式 POS 标注(避免子词歧义)
超参数
五、局限性与未来方向
5.1 图像偏置幻觉未解决
论文明确承认当视觉内容与世界知识冲突时(如图中足球明星在打乒乓球),IBD 的图像偏置策略可能加剧错误推断。虽然在主流评估中仅占 4%,但在需要深层推理的场景中可能更为突出。
5.2 推理开销
与 VCD 类似,IBD 需要
5.3 Prompt Tuning 依赖 COCO
5.4 仅在 7B 模型上验证
所有实验基于 7B 参数的 LVLM。对更大规模模型(13B、70B+)的效果未知,early exit 层的最优选择也可能随模型规模变化。
六、个人思考
6.1 与项目内其他对比解码方法的核心区别
| 方法 | 对比构造方式 | 对比空间 | 动态调节 | 额外参数 |
|---|---|---|---|---|
| IBD | 修改注意力权重偏置图像 token | 模型内部(注意力) | 74K (prompt) | |
| VCD | 高斯噪声扰动输入图像 | 输入空间(图像) | 仅可信度约束 | 0 |
| ICD | 角色前缀扰动指令 | 输入空间(文本) | 自适应截断 | 0 |
| HIO | 训练 Evil LVLM 放大幻觉 | 模型空间 | Logit 约束 | 全模型 |
| DoLa | 对比不同层的预测 | 模型内部(层间) | 动态层选择 | 0 |
IBD 最大的方法论贡献在于从注意力机制内部构造对比信号——不是扰动输入,而是让模型"看"同样的输入但"关注"不同的部分。这比外部扰动更可控、更可解释。
6.2 统计分析的方法论价值
IBD 最令人印象深刻的部分不是方法本身,而是对假设适用条件的严谨统计验证。大多数对比解码工作默认"对比信号全局有效",IBD 则明确揭示了两个失效条件(功能词、预测相似),并为此设计了针对性的动态调节。这种"先验证假设边界,再设计自适应机制"的范式值得借鉴。
6.3 与 VCD 的辩证关系
IBD 和 VCD 可以看作同一思路的两种实现:VCD 从外部(输入噪声)制造"弱视觉"参考分布,IBD 从内部(注意力权重)制造"强视觉"参考分布。方向相反但目标一致——拉大正确 token 和幻觉 token 的概率差距。IBD 的优势在于对比信号更可控(
6.4 Early Exit 作为词类隐式判别器
用 early exit 层间差异替代 POS 标注来判断内容词/功能词的策略非常巧妙——既避免了子词歧义,又利用了 LLM 内在的分层处理特性。这一发现来自 DoLa(Chuang et al., 2023),IBD 将其从"层间对比解码"扩展到了"词类判别"的新用途,体现了跨方法迁移 insight 的价值。
参考
- VCD(Leng et al., 2023):视觉对比解码,用高斯噪声图像做对比——IBD 从模型内部而非输入空间构造对比信号
- DoLa(Chuang et al., 2023):层间对比解码——IBD 借鉴其 early exit 发现用于隐式词类判别
- Contrastive Decoding(Li et al., 2022):开放文本对比解码——IBD 的可信度约束直接继承于此
- OPERA(Huang et al., 2023):注意力过度信任惩罚——同为 LVLM 幻觉缓解解码方法,IBD 在 CHAIR 上全面超越
- Woodpecker(Yin et al., 2023):生成后修正流水线——IBD 以 74K vs 273M 参数取得更优效果