MMHalSnowball:多模态幻觉雪球效应的研究与缓解
论文:Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models
作者:Weihong Zhong, Xiaocheng Feng*, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin
机构:哈尔滨工业大学、鹏城实验室
发布时间:2024年7月(ACL 2024)
分类标签:
幻觉雪球效应多轮对话残差视觉解码Training-Free对比解码评估框架
一句话总结
首次系统研究多模态幻觉雪球现象(对话中前轮生成的幻觉误导后续回答),提出 MMHalSnowball 评估框架(4,973 样本、4 类幻觉)量化揭示开源 LVLM 性能下降超 31%,并提出 Training-Free 的残差视觉解码(RVD)——通过残差连接视觉输入与当前查询生成强调视觉信息的分布,自适应混合修正原始输出分布,缓解 24%+ 雪球幻觉同时保持上下文能力。
一、问题与动机
1.1 多模态幻觉雪球效应
大语言模型领域已有研究表明,生成的幻觉会因模型对早期错误的过度信任而累积(hallucination snowballing)。但在多模态多轮对话场景中,这一现象尚未被系统研究。论文提出核心问题:
当前轮提问涉及此前对话中生成的幻觉内容时,LVLM 能否依靠视觉信息做出正确判断?还是会被文本上下文中的幻觉误导?
1.2 初步实验揭示严重性
论文在 GPT-4V、LLaVA-1.5、mPLUG-Owl2 上进行初步探索(Fig. 2):
- 幻觉对话 vs 干净对话:含幻觉上下文时,准确率分别下降 8%、44%、37%
- 单独询问时能答对的问题:在幻觉上下文中,59.1%(GPT-4V)至 74.5%(LLaVA-1.5) 的回答被误导为与幻觉一致
核心发现:LVLM 的强语言能力使其倾向于信任文本上下文中的幻觉描述,而忽视实际的视觉信息。
1.3 现有方法的不足
| 现有方向 | 局限 |
|---|---|
| 单轮幻觉缓解(VCD、OPERA 等) | 聚焦单轮生成,未考虑多轮对话中的幻觉累积 |
| 提示工程 | 实验证明简单提示("请基于图像回答")几乎无效 |
| VCD 对比解码 | 扰动的是视觉输入(全局噪声),在多轮对话中效果有限 |
二、评估框架:MMHalSnowball
2.1 数据构建流程(4 步)
Step 1 — 幻觉类型分配:基于 GQA 验证集的 QA 对和区域描述标注,为每个样本分配幻觉类型:
| 幻觉类型 | 定义 | 样本数 |
|---|---|---|
| Existence | 对可见对象的错误识别或遗漏 | 1,128 |
| Attribute | 对象属性(颜色、形状、大小、动作)错误 | 1,208 |
| Relation | 对象间关系(交互、位置)错误 | 1,318 |
| Imagination | 凭空想象图中不存在的对象 | 1,319 |
分配规则:名词答案→Existence,形容词/动词答案→Attribute,关系词汇表匹配→Relation,Imagination 由 ChatGPT 生成不存在但合理的对象。
Step 2 — 幻觉创建:用 ChatGPT 生成与原答案矛盾的幻觉答案,启发式修改 fact sentence 和区域描述,再生成包含幻觉事实的图像描述。
Step 3 — 对话构建:用 ChatGPT 验证幻觉描述确实与原答案矛盾且支持幻觉答案后,构建含幻觉描述的多轮对话。
Step 4 — 评估:在两种设定下比较同一模型的回答——HalluConv.(含幻觉对话)和 CleanConv.(单独提问)。
数据集共 4,973 个样本,人工审核(400 样本,3 位标注者)Agreement > 0.94,Kappa > 0.92。
2.2 评估指标
Accuracy (Acc):标准准确率,检查正确答案是否被蕴含在生成回复中:
Flip Rate (FR):在 CleanConv. 中答对的样本中,有多少在 HalluConv. 中被误导为幻觉答案:
其中
Weak Flip Rate (WFR):更宽松的版本,只检查 HalluConv. 中的回答是否偏离了原正确答案(不要求与幻觉答案一致):
FR 衡量"被特定幻觉误导"的程度,WFR 衡量"因幻觉上下文而回答错误"的更广泛影响。
三、核心方法:残差视觉解码(RVD)
3.1 动机
从雪球效应的分析中,论文发现 LVLM 在多轮对话中倾向于依赖文本上下文而忽略视觉信息。FactConv.(正确描述上下文)实验进一步证实:所有模型在含正确描述的上下文中准确率大幅提升(+13~33%),说明模型确实严重依赖文本线索。
3.2 残差视觉预测(Residual Visual Predictions)
给定视觉输入
跳过对话历史,直接用视觉输入 + 当前查询生成残差视觉预测:
这个分布自然地将注意力从文本上下文转向视觉信息——它完全基于视觉和当前查询,不受历史对话(可能含幻觉)的干扰。
3.3 残差视觉解码公式
将残差视觉预测与原始分布在 logit 层面加权混合:
3.4 自适应分布混合(Adaptive Distribution Blending)
固定
其中
直觉:
- 当回答依赖视觉信息时,
(有视觉)与 (无视觉)差异大 → 大 → 需要更多视觉强调 - 当回答依赖对话历史(如上下文理解任务)时,两个分布都在"猜测",差异小 →
小 → 保留上下文依赖
动态调整:
3.5 JSD vs KLD 的选择
论文也尝试了 KLD(经
四、实验结果
4.1 幻觉雪球效应评估(Table 1)
Formatting Prompt 设定(主要结果):
| 模型 | CleanConv. Acc↑ | HalluConv. Acc↑ | 下降 | FR↓ | WFR↓ |
|---|---|---|---|---|---|
| LLaVA-1.5 (7B) | 71.24 | 14.96 | ↓56.28 | 78.21 | 81.29 |
| ShareGPT4V (7B) | 71.81 | 15.91 | ↓55.90 | 77.18 | 80.12 |
| CogVLM (7B) | 75.17 | 2.63 | ↓72.54 | 93.07 | 96.79 |
| mPLUG-Owl2 (7B) | 60.47 | 7.82 | ↓52.65 | 86.63 | 89.82 |
| InstructBLIP (7B) | 59.88 | 4.54 | ↓55.34 | 90.36 | 93.92 |
| Qwen-VL-Chat (7B) | 77.94 | 20.03 | ↓57.91 | 71.70 | 74.97 |
| LLaVA-1.5 (13B) | 72.07 | 14.74 | ↓57.33 | 78.21 | 81.45 |
| GPT-4V | 60.49 | 52.00 | ↓8.49 | 23.30 | 27.69 |
关键观察:
- 所有开源 LVLM 性能下降超 31%,最严重的 CogVLM 下降 72.54%
- GPT-4V 受影响最小(仅 ↓8.49%),被观察到能主动纠正幻觉("Sorry for the confusion, but there seems to be a misunderstanding...")
- 扩大 LLM 骨干规模(7B→13B)对雪球效应几乎无帮助
- Imagination 幻觉 翻转率接近 100%——LVLM 极易接受凭空捏造的对象
4.2 对照实验:上下文影响分析(Table 2)
| 设定 | 说明 | 典型表现(LLaVA-1.5) |
|---|---|---|
| CleanConv. | 单独提问 | 71.24 |
| FactConv. | 含正确图像描述的对话 | 89.28 (↑18.04) |
| IrrConv. | 含无关信息的对话 | 65.35 (↓5.89) |
| HalluConv. | 含幻觉描述的对话 | 14.96 (↓56.28) |
FactConv. 的大幅提升证实:LVLM 天然依赖文本上下文中的视觉相关线索。无关上下文仅轻微影响,说明性能下降确系幻觉雪球效应所致。
4.3 RVD 缓解效果(Table 3)
| 模型 | 方法 | CleanConv. Acc↑ | HalluConv. Acc↑ | FR↓ | WPI Acc↑ |
|---|---|---|---|---|---|
| LLaVA-1.5 | baseline | 71.24 | 14.96 | 78.21 | 92.84 |
| w/ Prompt | 70.82 | 13.41 | 79.16 ↑ | 95.42 | |
| w/ VCD | 70.20 | 17.29 | 74.59 | 95.12 | |
| w/ RVD | 70.34 | 32.84 (+17.88) | 53.52 (-24.69) | 91.54 | |
| mPLUG-Owl2 | baseline | 60.47 | 7.82 | 86.63 | 96.82 |
| w/ RVD | 61.69 | 22.54 (+14.72) | 39.15 (-47.48) | 90.85 | |
| ShareGPT4V | baseline | 71.81 | 15.91 | 77.18 | 95.22 |
| w/ RVD | 72.21 | 37.50 (+21.59) | 48.79 (-28.39) | 94.52 |
关键观察:
- RVD 在所有模型上大幅优于 Prompt 和 VCD——Prompt 几乎无效,VCD 仅有微弱改善
- FR 大幅下降:mPLUG-Owl2 的 FR 从 86.63% 降至 39.15%(-47.48%)
- WPI 上下文任务保持 90%+ 准确率,证明 RVD 在强调视觉的同时保留了上下文理解能力
- CleanConv. 准确率几乎不受影响,说明 RVD 的自适应机制在无幻觉时不会过度干预
4.4 超参数分析
固定
自适应
4.5 分幻觉类型结果(Table 8)
RVD 在各类幻觉上均有效,但效果分布不均:
- Existence 幻觉缓解最显著:LLaVA-1.5 Acc 从 9.22→37.94(+28.72)
- Imagination 幻觉缓解最困难:Acc 从 1.14→12.13(+10.99),但 FR 仍从 98.79 降至 84.78
五、局限性与未来方向
- 评估场景相对简单:仅模拟了"描述+提问"的两轮对话场景,真实世界中幻觉雪球可能跨更多轮次、涉及更复杂的推理链条
- 使用模拟幻觉而非真实幻觉:为可扩展性,采用 ChatGPT 构造的幻觉对话而非各模型自身生成的真实幻觉
- 模型规模有限:仅测试 7B/13B 开源模型和 GPT-4V
- RVD 场景局限:当前仅适用于多轮对话场景,对单轮生成无增益
六、个人思考
6.1 与项目内其他幻觉缓解工作的对比
| 方法 | 核心视角 | 干预方式 | 训练需求 | 多轮对话 |
|---|---|---|---|---|
| MMHalSnowball/RVD | 多轮对话中幻觉的累积传播 | 解码时自适应视觉增强 | 否 | 专为多轮设计 |
| VCD | 语言先验导致的幻觉 | 对比扭曲视觉输入的分布 | 否 | 未专门考虑 |
| HALC | 局部对象级幻觉 | FOV 采样 + 视觉匹配 beam search | 否 | 未专门考虑 |
| OPERA | 注意力聚合模式 | Beam Search 惩罚 + 回溯 | 否 | 未专门考虑 |
| HIO | 精准放大幻觉 token | 训练 Evil LVLM + 对比解码 | 是 | 未专门考虑 |
| ICD | 指令对齐不确定性 | 指令对比解码 | 否 | 未专门考虑 |
| LogicCheckGPT | 逻辑一致性检测 | 后处理闭环探测 | 否 | 逻辑层面可处理 |
MMHalSnowball 的独特贡献在于揭示了一个此前被忽视的幻觉传播机制——不是模型在单次生成中产生幻觉,而是对话历史中的幻觉"传染"给后续回答。这与其他工作关注的"单轮幻觉产生"是正交的。
6.2 RVD 与 VCD 的本质区别
两者都在解码时修正分布,但对比的对象不同:
- VCD:对比的是
vs ——通过扭曲视觉输入来识别视觉相关 token - RVD:对比的是
vs ——通过移除对话历史来识别受历史影响的 token
VCD 的问题是全局噪声扭曲不可控,可能误伤有用的视觉信息。RVD 的对比目标更精确——直接去除可能包含幻觉的对话历史。Table 3 的结果也验证了这一点:VCD 在 HalluConv. 中几乎无效,而 RVD 提升显著。
6.3 FactConv. 实验的深层启示
FactConv.(含正确描述)实验中,所有模型准确率都大幅提升(+13~33%),这揭示了一个反直觉现象:模型并非不具备视觉感知能力,而是在多轮对话中倾向于"偷懒"依赖文本线索。这暗示训练时的 SFT 数据可能过度强化了模型对文本上下文的依赖,而非鼓励模型在每轮都独立审视视觉输入。
6.4 与 Imagination 幻觉的持续困难
所有方法(包括 RVD)对 Imagination 类幻觉的缓解效果最差(翻转率仍高达 ~85%)。这可能与 LVLM 的 "Yes bias"(倾向于给出肯定回答)有关——当上下文提到某对象"存在",模型很难违背这一"确认"。这也提示需要从训练层面(如 SENTINEL 的 C-DPO)而非纯解码层面来解决。
6.5 评估框架的价值
MMHalSnowball 本身作为评估框架的价值可能不亚于 RVD 方法。它系统性地量化了一个此前只有定性观察的问题,并提供了 4,973 个精心构造的样本。后续工作(如设计更强的多轮对话幻觉缓解方法)可以直接在此基准上评测。
参考
- VCD(Leng et al., 2023):视觉对比解码——MMHalSnowball 的核心 baseline,通过扭曲视觉输入进行对比解码
- DExperts(Liu et al., 2021):专家-反专家对比解码的文本领域先驱——RVD 的思想来源之一
- LLM Hallucination Snowballing(Zhang et al., 2023):纯文本领域的幻觉雪球效应研究——MMHalSnowball 的直接前驱
- GQA(Hudson & Manning, 2019):MMHalSnowball 的数据来源
- LogicCheckGPT(Wu et al., 2024):逻辑闭环检测幻觉——同为 ACL 2024 的幻觉缓解工作,但聚焦单轮后处理