MMHalSnowball：多模态幻觉雪球效应的研究与缓解

论文：Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models
作者：Weihong Zhong, Xiaocheng Feng*, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin
机构：哈尔滨工业大学、鹏城实验室
发布时间：2024年7月（ACL 2024）
🔗 arXiv | 代码
分类标签：幻觉雪球效应 多轮对话 残差视觉解码 Training-Free 对比解码 评估框架

一句话总结

首次系统研究多模态幻觉雪球现象（对话中前轮生成的幻觉误导后续回答），提出 MMHalSnowball 评估框架（4,973 样本、4 类幻觉）量化揭示开源 LVLM 性能下降超 31%，并提出 Training-Free 的残差视觉解码（RVD）——通过残差连接视觉输入与当前查询生成强调视觉信息的分布，自适应混合修正原始输出分布，缓解 24%+ 雪球幻觉同时保持上下文能力。

一、问题与动机

1.1 多模态幻觉雪球效应

大语言模型领域已有研究表明，生成的幻觉会因模型对早期错误的过度信任而累积（hallucination snowballing）。但在多模态多轮对话场景中，这一现象尚未被系统研究。论文提出核心问题：

当前轮提问涉及此前对话中生成的幻觉内容时，LVLM 能否依靠视觉信息做出正确判断？还是会被文本上下文中的幻觉误导？

1.2 初步实验揭示严重性

论文在 GPT-4V、LLaVA-1.5、mPLUG-Owl2 上进行初步探索（Fig. 2）：

幻觉对话 vs 干净对话：含幻觉上下文时，准确率分别下降 8%、44%、37%
单独询问时能答对的问题：在幻觉上下文中，59.1%（GPT-4V）至 74.5%（LLaVA-1.5） 的回答被误导为与幻觉一致

核心发现：LVLM 的强语言能力使其倾向于信任文本上下文中的幻觉描述，而忽视实际的视觉信息。

1.3 现有方法的不足

现有方向	局限
单轮幻觉缓解（VCD、OPERA 等）	聚焦单轮生成，未考虑多轮对话中的幻觉累积
提示工程	实验证明简单提示（"请基于图像回答"）几乎无效
VCD 对比解码	扰动的是视觉输入（全局噪声），在多轮对话中效果有限

二、评估框架：MMHalSnowball

2.1 数据构建流程（4 步）

Step 1 — 幻觉类型分配：基于 GQA 验证集的 QA 对和区域描述标注，为每个样本分配幻觉类型：

幻觉类型	定义	样本数
Existence	对可见对象的错误识别或遗漏	1,128
Attribute	对象属性（颜色、形状、大小、动作）错误	1,208
Relation	对象间关系（交互、位置）错误	1,318
Imagination	凭空想象图中不存在的对象	1,319

分配规则：名词答案→Existence，形容词/动词答案→Attribute，关系词汇表匹配→Relation，Imagination 由 ChatGPT 生成不存在但合理的对象。

Step 2 — 幻觉创建：用 ChatGPT 生成与原答案矛盾的幻觉答案，启发式修改 fact sentence 和区域描述，再生成包含幻觉事实的图像描述。

Step 3 — 对话构建：用 ChatGPT 验证幻觉描述确实与原答案矛盾且支持幻觉答案后，构建含幻觉描述的多轮对话。

Step 4 — 评估：在两种设定下比较同一模型的回答——HalluConv.（含幻觉对话）和 CleanConv.（单独提问）。

数据集共 4,973 个样本，人工审核（400 样本，3 位标注者）Agreement > 0.94，Kappa > 0.92。

2.2 评估指标

Accuracy (Acc)：标准准确率，检查正确答案是否被蕴含在生成回复中：

Acc (Y, \hat{Y}) = \frac{\sum_{i = 1}^{n} {Score}_{i} (y_{i}, {\hat{y}}_{i})}{n}

Flip Rate (FR)：在 CleanConv. 中答对的样本中，有多少在 HalluConv. 中被误导为幻觉答案：

FR = \frac{\sum_{i \in D^{+}} {Score}_{i} (y_{i}^{-}, {\hat{y}}_{i}^{-})}{| D^{+} |}

其中 $D^{+} = {i ∣ Score (y_{i}^{+}, {\hat{y}}_{i}^{+}) = 1}$ 是 CleanConv. 下正确回答的样本集。

Weak Flip Rate (WFR)：更宽松的版本，只检查 HalluConv. 中的回答是否偏离了原正确答案（不要求与幻觉答案一致）：

WFR = \frac{\sum_{i \in D^{+}} (1 - {Score}_{i} (y_{i}^{+}, {\hat{y}}_{i}^{-}))}{| D^{+} |}

FR 衡量"被特定幻觉误导"的程度，WFR 衡量"因幻觉上下文而回答错误"的更广泛影响。

三、核心方法：残差视觉解码（RVD）

3.1 动机

从雪球效应的分析中，论文发现 LVLM 在多轮对话中倾向于依赖文本上下文而忽略视觉信息。FactConv.（正确描述上下文）实验进一步证实：所有模型在含正确描述的上下文中准确率大幅提升（+13~33%），说明模型确实严重依赖文本线索。

3.2 残差视觉预测（Residual Visual Predictions）

给定视觉输入 $v$ 、对话历史 $h$ 、当前查询 $x$ ，标准解码分布为：

p_{θ} (y_{t} ∣ v, h, x, y_{< t}) = softmax ({logit}_{θ} (y_{t} ∣ v, h, x, y_{< t}))

跳过对话历史，直接用视觉输入 + 当前查询生成残差视觉预测：

p_{θ} (y_{t} ∣ v, x, y_{< t}) = softmax ({logit}_{θ} (y_{t} ∣ v, x, y_{< t}))

这个分布自然地将注意力从文本上下文转向视觉信息——它完全基于视觉和当前查询，不受历史对话（可能含幻觉）的干扰。

3.3 残差视觉解码公式

将残差视觉预测与原始分布在 logit 层面加权混合：

p_{RVD} (y ∣ v, h, x) = softmax (α \cdot {logit}_{θ} (y ∣ v, x) + (1 - α) \cdot {logit}_{θ} (y ∣ v, h, x))

$α$ 越大，模型越聚焦视觉信息。当对话历史长度为 0 时，RVD 退化为普通解码。

3.4 自适应分布混合（Adaptive Distribution Blending）

固定 $α$ 的问题：过大会丢失上下文能力，过小则无法缓解雪球效应。论文提出基于 JSD（Jensen-Shannon Divergence） 自适应调整：

τ = JSD (p_{θ} (y ∣ v, x) ∥ p_{θ} (y ∣ x)), τ \in [0, 1]

其中 $p_{θ} (y ∣ x)$ 是仅给查询文本（不含视觉输入）的分布。

直觉：

当回答依赖视觉信息时， $p_{θ} (y ∣ v, x)$ （有视觉）与 $p_{θ} (y ∣ x)$ （无视觉）差异大 → $τ$ 大 → 需要更多视觉强调
当回答依赖对话历史（如上下文理解任务）时，两个分布都在"猜测"，差异小 → $τ$ 小 → 保留上下文依赖

动态调整：

α = min (β \cdot τ, 1)

$β$ 为缩放因子（默认 $β = 2$ ）。

3.5 JSD vs KLD 的选择

论文也尝试了 KLD（经 $τ = 1 - \exp (- KLD)$ 映射到 [0,1]），发现 KLD 版本过于激进地偏向视觉信息——HalluConv. 准确率虽高但上下文能力严重受损。JSD 因其对称性和天然 [0,1] 范围，在两者间取得更好平衡。

四、实验结果

4.1 幻觉雪球效应评估（Table 1）

Formatting Prompt 设定（主要结果）：

模型	CleanConv. Acc↑	HalluConv. Acc↑	下降	FR↓	WFR↓
LLaVA-1.5 (7B)	71.24	14.96	↓56.28	78.21	81.29
ShareGPT4V (7B)	71.81	15.91	↓55.90	77.18	80.12
CogVLM (7B)	75.17	2.63	↓72.54	93.07	96.79
mPLUG-Owl2 (7B)	60.47	7.82	↓52.65	86.63	89.82
InstructBLIP (7B)	59.88	4.54	↓55.34	90.36	93.92
Qwen-VL-Chat (7B)	77.94	20.03	↓57.91	71.70	74.97
LLaVA-1.5 (13B)	72.07	14.74	↓57.33	78.21	81.45
GPT-4V	60.49	52.00	↓8.49	23.30	27.69

关键观察：

所有开源 LVLM 性能下降超 31%，最严重的 CogVLM 下降 72.54%
GPT-4V 受影响最小（仅 ↓8.49%），被观察到能主动纠正幻觉（"Sorry for the confusion, but there seems to be a misunderstanding..."）
扩大 LLM 骨干规模（7B→13B）对雪球效应几乎无帮助
Imagination 幻觉 翻转率接近 100%——LVLM 极易接受凭空捏造的对象

4.2 对照实验：上下文影响分析（Table 2）

设定	说明	典型表现（LLaVA-1.5）
CleanConv.	单独提问	71.24
FactConv.	含正确图像描述的对话	89.28 (↑18.04)
IrrConv.	含无关信息的对话	65.35 (↓5.89)
HalluConv.	含幻觉描述的对话	14.96 (↓56.28)

FactConv. 的大幅提升证实：LVLM 天然依赖文本上下文中的视觉相关线索。无关上下文仅轻微影响，说明性能下降确系幻觉雪球效应所致。

4.3 RVD 缓解效果（Table 3）

模型	方法	CleanConv. Acc↑	HalluConv. Acc↑	FR↓	WPI Acc↑
LLaVA-1.5	baseline	71.24	14.96	78.21	92.84
	w/ Prompt	70.82	13.41	79.16 ↑	95.42
	w/ VCD	70.20	17.29	74.59	95.12
	w/ RVD	70.34	32.84 (+17.88)	53.52 (-24.69)	91.54
mPLUG-Owl2	baseline	60.47	7.82	86.63	96.82
	w/ RVD	61.69	22.54 (+14.72)	39.15 (-47.48)	90.85
ShareGPT4V	baseline	71.81	15.91	77.18	95.22
	w/ RVD	72.21	37.50 (+21.59)	48.79 (-28.39)	94.52

关键观察：

RVD 在所有模型上大幅优于 Prompt 和 VCD——Prompt 几乎无效，VCD 仅有微弱改善
FR 大幅下降：mPLUG-Owl2 的 FR 从 86.63% 降至 39.15%（-47.48%）
WPI 上下文任务保持 90%+ 准确率，证明 RVD 在强调视觉的同时保留了上下文理解能力
CleanConv. 准确率几乎不受影响，说明 RVD 的自适应机制在无幻觉时不会过度干预

4.4 超参数分析

固定 $α$ （无自适应）（Fig. 6）： $α$ 从 0→0.8，HalluConv. 准确率持续提升（0→60%），但 WPI 准确率同步下降（92%→65%），说明固定 $α$ 无法平衡两个目标。

自适应 $β$ （Fig. 7）： $β$ 从 0→3，HalluConv. 准确率平滑提升，WPI 准确率下降幅度远小于固定 $α$ 的情况。 $β = 2$ 时达到较好的平衡点。

4.5 分幻觉类型结果（Table 8）

RVD 在各类幻觉上均有效，但效果分布不均：

Existence 幻觉缓解最显著：LLaVA-1.5 Acc 从 9.22→37.94（+28.72）
Imagination 幻觉缓解最困难：Acc 从 1.14→12.13（+10.99），但 FR 仍从 98.79 降至 84.78

五、局限性与未来方向

评估场景相对简单：仅模拟了"描述+提问"的两轮对话场景，真实世界中幻觉雪球可能跨更多轮次、涉及更复杂的推理链条
使用模拟幻觉而非真实幻觉：为可扩展性，采用 ChatGPT 构造的幻觉对话而非各模型自身生成的真实幻觉
模型规模有限：仅测试 7B/13B 开源模型和 GPT-4V
RVD 场景局限：当前仅适用于多轮对话场景，对单轮生成无增益

六、个人思考

6.1 与项目内其他幻觉缓解工作的对比

方法	核心视角	干预方式	训练需求	多轮对话
MMHalSnowball/RVD	多轮对话中幻觉的累积传播	解码时自适应视觉增强	否	专为多轮设计
VCD	语言先验导致的幻觉	对比扭曲视觉输入的分布	否	未专门考虑
HALC	局部对象级幻觉	FOV 采样 + 视觉匹配 beam search	否	未专门考虑
OPERA	注意力聚合模式	Beam Search 惩罚 + 回溯	否	未专门考虑
HIO	精准放大幻觉 token	训练 Evil LVLM + 对比解码	是	未专门考虑
ICD	指令对齐不确定性	指令对比解码	否	未专门考虑
LogicCheckGPT	逻辑一致性检测	后处理闭环探测	否	逻辑层面可处理

MMHalSnowball 的独特贡献在于揭示了一个此前被忽视的幻觉传播机制——不是模型在单次生成中产生幻觉，而是对话历史中的幻觉"传染"给后续回答。这与其他工作关注的"单轮幻觉产生"是正交的。

6.2 RVD 与 VCD 的本质区别

两者都在解码时修正分布，但对比的对象不同：

VCD：对比的是 $p (y ∣ v, x)$ vs $p (y ∣ v_{noise}, x)$ ——通过扭曲视觉输入来识别视觉相关 token
RVD：对比的是 $p (y ∣ v, x)$ vs $p (y ∣ v, h, x)$ ——通过移除对话历史来识别受历史影响的 token

VCD 的问题是全局噪声扭曲不可控，可能误伤有用的视觉信息。RVD 的对比目标更精确——直接去除可能包含幻觉的对话历史。Table 3 的结果也验证了这一点：VCD 在 HalluConv. 中几乎无效，而 RVD 提升显著。

6.3 FactConv. 实验的深层启示

FactConv.（含正确描述）实验中，所有模型准确率都大幅提升（+13~33%），这揭示了一个反直觉现象：模型并非不具备视觉感知能力，而是在多轮对话中倾向于"偷懒"依赖文本线索。这暗示训练时的 SFT 数据可能过度强化了模型对文本上下文的依赖，而非鼓励模型在每轮都独立审视视觉输入。

6.4 与 Imagination 幻觉的持续困难

所有方法（包括 RVD）对 Imagination 类幻觉的缓解效果最差（翻转率仍高达 ~85%）。这可能与 LVLM 的 "Yes bias"（倾向于给出肯定回答）有关——当上下文提到某对象"存在"，模型很难违背这一"确认"。这也提示需要从训练层面（如 SENTINEL 的 C-DPO）而非纯解码层面来解决。

6.5 评估框架的价值

MMHalSnowball 本身作为评估框架的价值可能不亚于 RVD 方法。它系统性地量化了一个此前只有定性观察的问题，并提供了 4,973 个精心构造的样本。后续工作（如设计更强的多轮对话幻觉缓解方法）可以直接在此基准上评测。

参考

VCD（Leng et al., 2023）：视觉对比解码——MMHalSnowball 的核心 baseline，通过扭曲视觉输入进行对比解码
DExperts（Liu et al., 2021）：专家-反专家对比解码的文本领域先驱——RVD 的思想来源之一
LLM Hallucination Snowballing（Zhang et al., 2023）：纯文本领域的幻觉雪球效应研究——MMHalSnowball 的直接前驱
GQA（Hudson & Manning, 2019）：MMHalSnowball 的数据来源
LogicCheckGPT（Wu et al., 2024）：逻辑闭环检测幻觉——同为 ACL 2024 的幻觉缓解工作，但聚焦单轮后处理

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

MMHalSnowball：多模态幻觉雪球效应的研究与缓解 ​

一句话总结 ​

一、问题与动机 ​

1.1 多模态幻觉雪球效应 ​

1.2 初步实验揭示严重性 ​

1.3 现有方法的不足 ​

二、评估框架：MMHalSnowball ​

2.1 数据构建流程（4 步） ​

2.2 评估指标 ​

三、核心方法：残差视觉解码（RVD） ​

3.1 动机 ​

3.2 残差视觉预测（Residual Visual Predictions） ​

3.3 残差视觉解码公式 ​

3.4 自适应分布混合（Adaptive Distribution Blending） ​

3.5 JSD vs KLD 的选择 ​

四、实验结果 ​

4.1 幻觉雪球效应评估（Table 1） ​

4.2 对照实验：上下文影响分析（Table 2） ​

4.3 RVD 缓解效果（Table 3） ​

4.4 超参数分析 ​

4.5 分幻觉类型结果（Table 8） ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与项目内其他幻觉缓解工作的对比 ​

6.2 RVD 与 VCD 的本质区别 ​

6.3 FactConv. 实验的深层启示 ​

6.4 与 Imagination 幻觉的持续困难 ​

6.5 评估框架的价值 ​

参考 ​