Skip to content

MMHalSnowball:多模态幻觉雪球效应的研究与缓解

论文Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

作者:Weihong Zhong, Xiaocheng Feng*, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin

机构:哈尔滨工业大学、鹏城实验室

发布时间:2024年7月(ACL 2024

🔗 arXiv | 代码

分类标签幻觉雪球效应 多轮对话 残差视觉解码 Training-Free 对比解码 评估框架


一句话总结

首次系统研究多模态幻觉雪球现象(对话中前轮生成的幻觉误导后续回答),提出 MMHalSnowball 评估框架(4,973 样本、4 类幻觉)量化揭示开源 LVLM 性能下降超 31%,并提出 Training-Free 的残差视觉解码(RVD)——通过残差连接视觉输入与当前查询生成强调视觉信息的分布,自适应混合修正原始输出分布,缓解 24%+ 雪球幻觉同时保持上下文能力。


一、问题与动机

1.1 多模态幻觉雪球效应

大语言模型领域已有研究表明,生成的幻觉会因模型对早期错误的过度信任而累积(hallucination snowballing)。但在多模态多轮对话场景中,这一现象尚未被系统研究。论文提出核心问题:

当前轮提问涉及此前对话中生成的幻觉内容时,LVLM 能否依靠视觉信息做出正确判断?还是会被文本上下文中的幻觉误导?

1.2 初步实验揭示严重性

论文在 GPT-4V、LLaVA-1.5、mPLUG-Owl2 上进行初步探索(Fig. 2):

  • 幻觉对话 vs 干净对话:含幻觉上下文时,准确率分别下降 8%、44%、37%
  • 单独询问时能答对的问题:在幻觉上下文中,59.1%(GPT-4V)至 74.5%(LLaVA-1.5) 的回答被误导为与幻觉一致

核心发现:LVLM 的强语言能力使其倾向于信任文本上下文中的幻觉描述,而忽视实际的视觉信息

1.3 现有方法的不足

现有方向局限
单轮幻觉缓解(VCD、OPERA 等)聚焦单轮生成,未考虑多轮对话中的幻觉累积
提示工程实验证明简单提示("请基于图像回答")几乎无效
VCD 对比解码扰动的是视觉输入(全局噪声),在多轮对话中效果有限

二、评估框架:MMHalSnowball

2.1 数据构建流程(4 步)

Step 1 — 幻觉类型分配:基于 GQA 验证集的 QA 对和区域描述标注,为每个样本分配幻觉类型:

幻觉类型定义样本数
Existence对可见对象的错误识别或遗漏1,128
Attribute对象属性(颜色、形状、大小、动作)错误1,208
Relation对象间关系(交互、位置)错误1,318
Imagination凭空想象图中不存在的对象1,319

分配规则:名词答案→Existence,形容词/动词答案→Attribute,关系词汇表匹配→Relation,Imagination 由 ChatGPT 生成不存在但合理的对象。

Step 2 — 幻觉创建:用 ChatGPT 生成与原答案矛盾的幻觉答案,启发式修改 fact sentence 和区域描述,再生成包含幻觉事实的图像描述。

Step 3 — 对话构建:用 ChatGPT 验证幻觉描述确实与原答案矛盾且支持幻觉答案后,构建含幻觉描述的多轮对话。

Step 4 — 评估:在两种设定下比较同一模型的回答——HalluConv.(含幻觉对话)和 CleanConv.(单独提问)。

数据集共 4,973 个样本,人工审核(400 样本,3 位标注者)Agreement > 0.94,Kappa > 0.92。

2.2 评估指标

Accuracy (Acc):标准准确率,检查正确答案是否被蕴含在生成回复中:

Acc(Y,Y^)=i=1nScorei(yi,y^i)n

Flip Rate (FR):在 CleanConv. 中答对的样本中,有多少在 HalluConv. 中被误导为幻觉答案:

FR=iD+Scorei(yi,y^i)|D+|

其中 D+={iScore(yi+,y^i+)=1} 是 CleanConv. 下正确回答的样本集。

Weak Flip Rate (WFR):更宽松的版本,只检查 HalluConv. 中的回答是否偏离了原正确答案(不要求与幻觉答案一致):

WFR=iD+(1Scorei(yi+,y^i))|D+|

FR 衡量"被特定幻觉误导"的程度,WFR 衡量"因幻觉上下文而回答错误"的更广泛影响。


三、核心方法:残差视觉解码(RVD)

3.1 动机

从雪球效应的分析中,论文发现 LVLM 在多轮对话中倾向于依赖文本上下文而忽略视觉信息。FactConv.(正确描述上下文)实验进一步证实:所有模型在含正确描述的上下文中准确率大幅提升(+13~33%),说明模型确实严重依赖文本线索。

3.2 残差视觉预测(Residual Visual Predictions)

给定视觉输入 v、对话历史 h、当前查询 x,标准解码分布为:

pθ(ytv,h,x,y<t)=softmax(logitθ(ytv,h,x,y<t))

跳过对话历史,直接用视觉输入 + 当前查询生成残差视觉预测:

pθ(ytv,x,y<t)=softmax(logitθ(ytv,x,y<t))

这个分布自然地将注意力从文本上下文转向视觉信息——它完全基于视觉和当前查询,不受历史对话(可能含幻觉)的干扰。

3.3 残差视觉解码公式

将残差视觉预测与原始分布在 logit 层面加权混合:

pRVD(yv,h,x)=softmax(αlogitθ(yv,x)+(1α)logitθ(yv,h,x))

α 越大,模型越聚焦视觉信息。当对话历史长度为 0 时,RVD 退化为普通解码。

3.4 自适应分布混合(Adaptive Distribution Blending)

固定 α 的问题:过大会丢失上下文能力,过小则无法缓解雪球效应。论文提出基于 JSD(Jensen-Shannon Divergence) 自适应调整:

τ=JSD(pθ(yv,x)pθ(yx)),τ[0,1]

其中 pθ(yx) 是仅给查询文本(不含视觉输入)的分布。

直觉

  • 当回答依赖视觉信息时,pθ(yv,x)(有视觉)与 pθ(yx)(无视觉)差异大 → τ 大 → 需要更多视觉强调
  • 当回答依赖对话历史(如上下文理解任务)时,两个分布都在"猜测",差异小 → τ 小 → 保留上下文依赖

动态调整:

α=min(βτ,1)

β 为缩放因子(默认 β=2)。

3.5 JSD vs KLD 的选择

论文也尝试了 KLD(经 τ=1exp(KLD) 映射到 [0,1]),发现 KLD 版本过于激进地偏向视觉信息——HalluConv. 准确率虽高但上下文能力严重受损。JSD 因其对称性和天然 [0,1] 范围,在两者间取得更好平衡。


四、实验结果

4.1 幻觉雪球效应评估(Table 1)

Formatting Prompt 设定(主要结果):

模型CleanConv. Acc↑HalluConv. Acc↑下降FR↓WFR↓
LLaVA-1.5 (7B)71.2414.96↓56.2878.2181.29
ShareGPT4V (7B)71.8115.91↓55.9077.1880.12
CogVLM (7B)75.172.63↓72.5493.0796.79
mPLUG-Owl2 (7B)60.477.82↓52.6586.6389.82
InstructBLIP (7B)59.884.54↓55.3490.3693.92
Qwen-VL-Chat (7B)77.9420.03↓57.9171.7074.97
LLaVA-1.5 (13B)72.0714.74↓57.3378.2181.45
GPT-4V60.4952.00↓8.4923.3027.69

关键观察:

  • 所有开源 LVLM 性能下降超 31%,最严重的 CogVLM 下降 72.54%
  • GPT-4V 受影响最小(仅 ↓8.49%),被观察到能主动纠正幻觉("Sorry for the confusion, but there seems to be a misunderstanding...")
  • 扩大 LLM 骨干规模(7B→13B)对雪球效应几乎无帮助
  • Imagination 幻觉 翻转率接近 100%——LVLM 极易接受凭空捏造的对象

4.2 对照实验:上下文影响分析(Table 2)

设定说明典型表现(LLaVA-1.5)
CleanConv.单独提问71.24
FactConv.含正确图像描述的对话89.28 (↑18.04)
IrrConv.含无关信息的对话65.35 (↓5.89)
HalluConv.含幻觉描述的对话14.96 (↓56.28)

FactConv. 的大幅提升证实:LVLM 天然依赖文本上下文中的视觉相关线索。无关上下文仅轻微影响,说明性能下降确系幻觉雪球效应所致。

4.3 RVD 缓解效果(Table 3)

模型方法CleanConv. Acc↑HalluConv. Acc↑FR↓WPI Acc↑
LLaVA-1.5baseline71.2414.9678.2192.84
w/ Prompt70.8213.4179.16 ↑95.42
w/ VCD70.2017.2974.5995.12
w/ RVD70.3432.84 (+17.88)53.52 (-24.69)91.54
mPLUG-Owl2baseline60.477.8286.6396.82
w/ RVD61.6922.54 (+14.72)39.15 (-47.48)90.85
ShareGPT4Vbaseline71.8115.9177.1895.22
w/ RVD72.2137.50 (+21.59)48.79 (-28.39)94.52

关键观察:

  • RVD 在所有模型上大幅优于 Prompt 和 VCD——Prompt 几乎无效,VCD 仅有微弱改善
  • FR 大幅下降:mPLUG-Owl2 的 FR 从 86.63% 降至 39.15%(-47.48%)
  • WPI 上下文任务保持 90%+ 准确率,证明 RVD 在强调视觉的同时保留了上下文理解能力
  • CleanConv. 准确率几乎不受影响,说明 RVD 的自适应机制在无幻觉时不会过度干预

4.4 超参数分析

固定 α(无自适应)(Fig. 6):α 从 0→0.8,HalluConv. 准确率持续提升(0→60%),但 WPI 准确率同步下降(92%→65%),说明固定 α 无法平衡两个目标。

自适应 β(Fig. 7):β 从 0→3,HalluConv. 准确率平滑提升,WPI 准确率下降幅度远小于固定 α 的情况。β=2 时达到较好的平衡点。

4.5 分幻觉类型结果(Table 8)

RVD 在各类幻觉上均有效,但效果分布不均:

  • Existence 幻觉缓解最显著:LLaVA-1.5 Acc 从 9.22→37.94(+28.72)
  • Imagination 幻觉缓解最困难:Acc 从 1.14→12.13(+10.99),但 FR 仍从 98.79 降至 84.78

五、局限性与未来方向

  1. 评估场景相对简单:仅模拟了"描述+提问"的两轮对话场景,真实世界中幻觉雪球可能跨更多轮次、涉及更复杂的推理链条
  2. 使用模拟幻觉而非真实幻觉:为可扩展性,采用 ChatGPT 构造的幻觉对话而非各模型自身生成的真实幻觉
  3. 模型规模有限:仅测试 7B/13B 开源模型和 GPT-4V
  4. RVD 场景局限:当前仅适用于多轮对话场景,对单轮生成无增益

六、个人思考

6.1 与项目内其他幻觉缓解工作的对比

方法核心视角干预方式训练需求多轮对话
MMHalSnowball/RVD多轮对话中幻觉的累积传播解码时自适应视觉增强专为多轮设计
VCD语言先验导致的幻觉对比扭曲视觉输入的分布未专门考虑
HALC局部对象级幻觉FOV 采样 + 视觉匹配 beam search未专门考虑
OPERA注意力聚合模式Beam Search 惩罚 + 回溯未专门考虑
HIO精准放大幻觉 token训练 Evil LVLM + 对比解码未专门考虑
ICD指令对齐不确定性指令对比解码未专门考虑
LogicCheckGPT逻辑一致性检测后处理闭环探测逻辑层面可处理

MMHalSnowball 的独特贡献在于揭示了一个此前被忽视的幻觉传播机制——不是模型在单次生成中产生幻觉,而是对话历史中的幻觉"传染"给后续回答。这与其他工作关注的"单轮幻觉产生"是正交的。

6.2 RVD 与 VCD 的本质区别

两者都在解码时修正分布,但对比的对象不同:

  • VCD:对比的是 p(yv,x) vs p(yvnoise,x) ——通过扭曲视觉输入来识别视觉相关 token
  • RVD:对比的是 p(yv,x) vs p(yv,h,x) ——通过移除对话历史来识别受历史影响的 token

VCD 的问题是全局噪声扭曲不可控,可能误伤有用的视觉信息。RVD 的对比目标更精确——直接去除可能包含幻觉的对话历史。Table 3 的结果也验证了这一点:VCD 在 HalluConv. 中几乎无效,而 RVD 提升显著。

6.3 FactConv. 实验的深层启示

FactConv.(含正确描述)实验中,所有模型准确率都大幅提升(+13~33%),这揭示了一个反直觉现象:模型并非不具备视觉感知能力,而是在多轮对话中倾向于"偷懒"依赖文本线索。这暗示训练时的 SFT 数据可能过度强化了模型对文本上下文的依赖,而非鼓励模型在每轮都独立审视视觉输入。

6.4 与 Imagination 幻觉的持续困难

所有方法(包括 RVD)对 Imagination 类幻觉的缓解效果最差(翻转率仍高达 ~85%)。这可能与 LVLM 的 "Yes bias"(倾向于给出肯定回答)有关——当上下文提到某对象"存在",模型很难违背这一"确认"。这也提示需要从训练层面(如 SENTINEL 的 C-DPO)而非纯解码层面来解决。

6.5 评估框架的价值

MMHalSnowball 本身作为评估框架的价值可能不亚于 RVD 方法。它系统性地量化了一个此前只有定性观察的问题,并提供了 4,973 个精心构造的样本。后续工作(如设计更强的多轮对话幻觉缓解方法)可以直接在此基准上评测。


参考

  • VCD(Leng et al., 2023):视觉对比解码——MMHalSnowball 的核心 baseline,通过扭曲视觉输入进行对比解码
  • DExperts(Liu et al., 2021):专家-反专家对比解码的文本领域先驱——RVD 的思想来源之一
  • LLM Hallucination Snowballing(Zhang et al., 2023):纯文本领域的幻觉雪球效应研究——MMHalSnowball 的直接前驱
  • GQA(Hudson & Manning, 2019):MMHalSnowball 的数据来源
  • LogicCheckGPT(Wu et al., 2024):逻辑闭环检测幻觉——同为 ACL 2024 的幻觉缓解工作,但聚焦单轮后处理