Skip to content

EFUF:面向多模态大语言模型的高效细粒度遗忘框架

论文EFUF: Efficient Fine-Grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

作者:Shangyu Xing, Fei Zhao, Zhen Wu*, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai

机构:Nanjing University(National Key Laboratory for Novel Software Technology)

发布时间:2024年2月(arXiv),2024年6月(v2)

论文链接arXiv

发表会议:EMNLP 2024

分类标签MLLM Unlearning CLIP Fine-Grained Hallucination Gradient Ascent


一句话总结

利用 CLIP 分数自动区分幻觉/非幻觉对象并构建细粒度数据集,通过梯度上升遗忘幻觉子句 + 梯度下降保留正确子句 + 句子损失维持生成质量,无需配对数据、仅 3 GPU 小时训练,即可在 4 个 MLLM 上一致降低 ~15% CHAIRS 同时提升生成质量。


一、问题与动机

1.1 现有微调方法的两大瓶颈

已有微调方法(RLHF、DPO、对比学习等)在缓解 MLLM 幻觉上取得了不错的效果,但存在两个核心问题:

  1. 数据需求昂贵:需要人工标注配对的幻觉/非幻觉响应对。构建 10K 级别的偏好数据集通常耗费 $3,000+ 的人工标注成本,或使用 GPT-4 辅助筛选 500K 级样本(约 2 亿 token,成本 ~$2,000)
  2. 计算资源庞大:RLHF 需要同时运行策略模型和奖励模型,DPO 需要同时运行策略模型和参考模型,训练开销在 8-20 A100 GPU 小时

1.2 遗忘(Unlearning)的新视角

遗忘算法的核心是梯度上升——对需要"遗忘"的内容执行梯度上升来降低其生成概率。传统遗忘方法应用于整个响应,但本文提出细粒度遗忘:仅对含幻觉对象的子句执行梯度上升,保留正确内容不受影响。

关键挑战在于:如何无需人工标注地区分幻觉与非幻觉对象?

1.3 CLIP 相似度作为幻觉指示器

论文通过预备实验验证了假设:文本-图像相似度可以可靠地指示幻觉

对 MiniGPT4 和 LLaVA 各 200 条生成的图像描述进行人工标注,计算每个对象与对应图像区域的细粒度 CLIP 相似度:

S(oij)=maxwiWiCLIP(oij,wi)

其中 Wi 是图像 vi 上滑动窗口裁剪出的局部区域集合。

模型是否幻觉均值标准差p 值
MiniGPT428.262.746.0×1030
MiniGPT425.352.70
LLaVA28.642.652.5×1012
LLaVA26.112.27

关键发现

  • 两个模型上幻觉与非幻觉对象的 CLIP 分数分布差异极为显著(p<1012
  • CLIP 分数 >32 的对象中仅 0.6%/1.6% 是幻觉,<23 的对象中仅 2.3%/1.7% 是非幻觉
  • 可以用阈值有效分离正负样本

二、预备知识

2.1 遗忘算法基础

标准微调通过梯度下降更新参数:

Δθ=ηθLft(v,x,y;θ)

遗忘则反转方向,执行梯度上升

Δθ=+ηθLft(v,x,y;θ)

其中 MLLM 的监督微调损失为:

Lft(v,x,y;θ)=1|y|i=1|y|l(fθ(v,x,y<i),yi)

l(y^i,yi) 是交叉熵损失。

2.2 直接遗忘的问题

先前研究表明,仅使用遗忘损失(纯梯度上升)会严重破坏模型的语言理解能力,导致无法生成连贯句子。因此需要配合正向训练信号来维持模型能力。


三、核心方法

EFUF 分为两个阶段:数据集构建遗忘训练

3.1 数据集构建

对象提取与评分

  1. 用 MLLM 对 MSCOCO 图像生成描述
  2. 用 LLaMA-2-70B 从描述中提取所有对象
  3. 用 CLIP 计算每个对象与图像的细粒度相似度分数

三类数据集

基于 CLIP 分数的阈值,将数据划分为三类:

正子句数据集 D+:包含高 CLIP 分数(非幻觉)对象的子句

D+={vi;pre(oij);cur(oij)oijO,S(oij)>T0}

其中 cur(o) 是对象 o 所在的子句,pre(o) 是该子句之前的所有文本(含 prompt),T0=32

负子句数据集 D:包含低 CLIP 分数(幻觉)对象的子句

D={vi;pre(oij);cur(oij)oijO,S(oij)<T1}

其中 T1=23

完整句子数据集 Ds:基于句子级平均 CLIP 分数筛选的高质量完整响应

S(ti)=1nj=1nS(oij)Ds={vi;pi;titiT,S(ti)>T2}

其中 T2=27.5

直觉:由于同一响应中可能同时包含正确和幻觉对象,所以必须在子句级别而非响应级别进行区分。子句以标点符号为分隔。截断该子句之后的文本,只保留对象出现位置及之前的上下文。

3.2 三重损失函数

负损失(Negative Loss)— 梯度上升遗忘幻觉

Lneg=Lft(v,x,y),(v,x,y)D

取反微调损失实现梯度上升,降低幻觉对象的生成概率。

正损失(Positive Loss)— 梯度下降强化正确对象

Lpos=Lft(v,x,y),(v,x,y)D+

标准微调损失,鼓励模型生成正确对象。

句子损失(Sentence Loss)— 保持长文本生成能力

Lsent=Lft(v,x,y),(v,x,y)Ds

对高质量完整响应进行标准微调,防止遗忘过程破坏模型生成连贯长文本的能力。

完整目标

L=Lpos+λ1Lneg+λ2Lsent

其中 λ1=0.3(遗忘权重),λ2=0.2(句子权重)。

训练时从三个数据集并发采样,分别计算损失后加权聚合。


四、实验结果

4.1 实验设置

  • 模型:MiniGPT4、LLaVA、mPLUG-owl、ShareGPT4V
  • 数据:MSCOCO,仅使用图像,标注仅用于评估
  • 训练:仅微调多模态映射层,1 epoch,AdamW,lr=1e-5,weight decay=0.05
  • 评估:CHAIR(CHAIRS/CHAIRI)、MHumanEval(HumanS/HumanI)、POPE(F1)、BLEU、Info.(GPT-4 信息量评分)、ppl.(GPT-2 困惑度)

4.2 主实验

模型CHAIRSCHAIRIHumanSHumanIPOPE↑Bleu1↑Bleu4↑Info.↑ppl.↓
MiniGPT445.923.269.027.381.043.815.586.70.134
+ EFUF38.921.145.012.782.345.616.787.50.121
LLaVA52.822.842.014.785.343.215.293.70.139
+ EFUF41.918.724.07.785.945.316.893.50.129
mPLUG-owl71.133.560.024.188.543.315.191.10.129
+ EFUF40.523.246.017.790.752.319.990.00.139
ShareGPT4V46.822.331.09.987.843.315.489.60.157
+ EFUF36.918.414.05.488.146.918.191.10.159

关键观察

  1. EFUF 在所有 4 个 MLLM 上一致降低幻觉:CHAIRS 平均降低 ~15%,CHAIRI 平均降低 ~5%,HumanS 平均降低 ~18%,HumanI 平均降低 ~8%
  2. 生成质量同步提升:BLEU-1 平均 +4%,BLEU-4 平均 +2%,信息量 +1%,流畅度 +1%
  3. mPLUG-owl 改善最大:CHAIRS 从 71.1 降至 40.5(降低 43%),说明幻觉率越高的模型受益越大

4.3 消融实验

在 MiniGPT4 上对比不同配置:

方法CHAIRSCHAIRIHumanSHumanIPOPE↑Info.↑ppl.↓
MiniGPT445.923.269.027.381.086.70.134
+ 粗粒度遗忘42.422.756.017.382.087.60.120
+ 细粒度遗忘(无句子损失)36.117.939.09.782.787.20.170
+ 仅句子损失44.129.858.017.081.786.80.120
+ EFUF38.921.145.012.782.387.50.121

关键发现

  1. 细粒度遗忘是核心:粗粒度遗忘(整句级别)改善有限,细粒度遗忘(子句级别)大幅降低幻觉率
  2. 细粒度遗忘代价是流畅度:无句子损失时 ppl. 从 0.134 恶化至 0.170,人工检查发现生成内容碎片化、不连贯
  3. 句子损失不可或缺:EFUF 保持了流畅度(ppl. 0.121)同时有效降低幻觉,两者缺一不可

4.4 与其他幻觉缓解方法对比

在 LLaVA 上与 RLHF、HA-DPO、POVID 对比:

方法CHAIRSCHAIRIHumanSHumanIPOPE↑Bleu1↑Info.↑ppl.↓
LLaVA52.822.842.014.785.343.293.70.139
+ RLHF60.224.840.012.787.039.893.50.126
+ HA-DPO52.321.628.010.884.243.891.40.148
+ POVID41.319.229.08.386.344.586.80.233
+ EFUF41.918.724.07.785.945.393.50.129
  • EFUF 在大多数指标上可比或优于其他方法,且训练资源需求最低
  • RLHF 甚至加重了幻觉(CHAIRS 从 52.8 升至 60.2)
  • POVID 虽然 CHAIRS 略优,但流畅度严重受损(ppl. 0.233 vs 0.129)

4.5 训练成本对比

方法A100 GPU 小时
RLHF20
DPO12
对比学习10
EFUF3

EFUF 训练时间仅为 RLHF 的 1/7,且无需人工标注配对数据。

4.6 与其他方法的叠加效果

EFUF 可作为附加方法与已有的幻觉缓解策略叠加:

模型CHAIRSHumanSHumanIPOPE↑
LLaVA-RLHF60.240.012.787.0
+ EFUF59.738.012.488.8
LRV39.446.016.085.1
+ EFUF37.345.015.185.1

在已经经过 RLHF 或指令微调的模型上,EFUF 仍能进一步降低幻觉率,证明其与现有方法互补

4.7 超参数分析

在 ShareGPT4V 上分析 λ1(遗忘权重)和 λ2(句子权重)的影响:

λ1CHAIRSHumanSInfo.↑ppl.↓
0.146.330.089.50.155
0.238.520.091.20.129
0.336.918.090.90.154
0.421.013.088.50.243
  • λ1=0.3 是最优平衡点:再增大会严重损害流畅度(ppl. 飙升至 0.243)
  • λ2=0.2 是最优:过小(0.1)流畅度不足,过大(0.3)会抑制遗忘效果导致幻觉回升

五、局限性与未来方向

  1. 文本-图像相似度度量单一:仅使用 CLIP 作为幻觉指示器,其他视觉-语言对齐模型(如 SigLIP、BLIP-2)可能提供更好的信号
  2. 仅针对对象幻觉:与大多数同期工作一样,仅关注对象是否存在于图像中,未涉及属性幻觉(颜色、大小错误)或关系幻觉(空间位置错误)
  3. 仅微调映射层:训练仅调整多模态映射层参数,如果同时微调 LLM 主干可能有更大提升空间
  4. CLIP 分数阈值固定T0=32T1=23T2=27.5 均为手动设定,不同模型/数据集可能需要不同阈值

六、个人思考

6.1 遗忘视角的独特性

EFUF 最大的贡献在于将遗忘(unlearning) 引入多模态幻觉缓解——与主流的对齐/偏好优化方向形成了正交的思路。核心逻辑很清晰:与其让模型学习什么是"好的",不如直接让模型"忘掉"坏的。这个思路简单直接,但细粒度处理是关键——粗粒度遗忘整句效果有限,细粒度遗忘子句大幅提升,这说明幻觉是局部现象,需要精确定位。

6.2 与项目中其他方法的定位对比

维度EFUFmDPOCSRSENTINEL
核心思路细粒度遗忘幻觉子句修复 DPO 忽略图像条件CLIP 校准自奖励 + 迭代 DPO句子级域内偏好 + C-DPO
是否需要配对数据是(Silkie)自生成自生成
是否需要参考模型
训练开销3 GPU 小时
CLIP 的角色数据筛选(正/负/句子)奖励校准
粒度子句级对象响应级句子级句子级

EFUF 在训练效率上有明显优势:无需配对数据、无需参考模型、无需多轮迭代,是四者中计算成本最低的方案。

6.3 CLIP 在幻觉缓解中的多面角色

CLIP 在本项目收录的多篇论文中扮演不同角色,值得横向对比:

  • EFUF:CLIP 作为数据集筛选器,阈值化区分正/负样本
  • CSR:CLIP 作为奖励校准器,计算 CLIP Score 校准自奖励信号
  • DLC:CLIP 作为解码时探针,逐 token 评估视觉优势
  • HALC:CLIP 作为 beam search验证器,视觉匹配筛选候选

这说明 CLIP 的文本-图像对齐能力在幻觉缓解中具有广泛的应用空间,但各方法利用的粒度和时机不同。

6.4 细粒度遗忘 vs 对比解码

EFUF(训练时细粒度遗忘)与 HIO(推理时对比解码)形成有趣的对比:

  • HIO:训练一个"Evil LVLM"专门放大幻觉,推理时用对比解码消除
  • EFUF:直接通过梯度上升让模型遗忘幻觉模式,推理时无需额外操作

两者的目标相同(降低幻觉 token 概率),但时机不同。EFUF 的优势是推理零开销,HIO 的优势是不修改原模型参数。实际上,EFUF 微调后的模型可以进一步叠加 HIO 等对比解码方法,形成训练时 + 推理时的双重缓解。

6.5 句子损失的必要性与"遗忘-保持"平衡

消融实验中最有意义的发现是:细粒度遗忘(无句子损失)虽然幻觉率最低,但 ppl. 从 0.134 恶化至 0.170,人工检查生成内容碎片化不连贯。这揭示了遗忘方法的固有矛盾——过度遗忘会损害模型的基础能力。EFUF 通过句子损失优雅地解决了这个问题,但 λ1λ2 的平衡需要仔细调节(λ1=0.4 时 ppl. 飙升至 0.243)。


参考

  • CLIP (Radford et al., 2021):文本-图像对齐模型,EFUF 数据集构建的核心工具
  • LLaVA-RLHF (Sun et al., 2023):首个将 RLHF 应用于缓解多模态幻觉的工作
  • HA-DPO (Zhao et al., 2023):幻觉感知 DPO,EFUF 的对比基线
  • RLHF-V (Yu et al., 2023):细粒度人工纠正 + 密集 DPO
  • CHAIR (Rohrbach et al., 2018):对象幻觉评估指标
  • CSR (Zhou et al., 2024):CLIP 校准自奖励 + 迭代 DPO,同样利用 CLIP 但角色不同
  • mDPO (Wang et al., 2024):条件偏好优化,从优化目标层面修复多模态 DPO
  • HIO (Chen et al., 2024):反转 BT 模型训练 Evil LVLM + 对比解码
  • HALC (Chen et al., 2024):FOV 对比解码 + 视觉匹配 beam search