Skip to content

mDPO:面向多模态大语言模型的条件偏好优化

论文mDPO: Conditional Preference Optimization for Multimodal Large Language Models

作者:Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

机构:University of Southern California, University of California Davis, Microsoft Research

发布时间:2024年6月

论文链接arXiv

发表会议:EMNLP 2024

分类标签MLLM DPO Conditional Preference Reward Anchor Hallucination Multimodal Alignment


一句话总结

发现多模态 DPO 存在无条件偏好问题(移除图像后 DPO 效果几乎不变),提出 mDPO:在标准 DPO 基础上增加图像条件偏好优化(对比原图与裁剪图的偏好)和锚定偏好优化(强制 chosen 响应的隐式奖励为正),3B 模型 + 10K 偏好数据即可媲美 7B + 80K 数据的 DPO 效果,CHAIRS 降低 37%。


一、问题与动机

1.1 多模态 DPO 的困境

DPO 在纯文本 LLM 对齐中表现优异,但直接迁移到多模态场景时效果不稳定,甚至可能加剧幻觉。已有工作多将此归因于偏好数据质量不足,但本文从优化目标本身的角度揭示了更根本的原因。

1.2 关键实验:无条件偏好问题

论文设计了一个对照实验——DPO (No Image),即在偏好数据中移除所有图像,仅保留文本进行 DPO 训练。结果令人意外:

方法MMHalBench Score ↑
No DPO (Bunny-3B)~2.1
DPO~2.2
DPO (No Image)~2.2
mDPO~2.9

DPO (No Image) 与标准 DPO 效果几乎相同,说明 DPO 在优化过程中实际上忽略了图像条件,仅学习了语言层面的偏好——这就是**无条件偏好(unconditional preference)**问题。

1.3 问题根源分析

理论上,多模态 DPO 期望最大化:

σ(r(m,q,yw)r(m,q,yl))

即隐式奖励应同时依赖图像 m、问题 q 和响应 y。但实际上,模型在优化过程中走了"捷径":仅通过区分语言模式即可满足偏好目标,图像 m 沦为冗余条件。这导致 DPO 后的模型反而更倾向于忽略图像、仅依赖问题文本生成回答,加剧幻觉。


二、预备知识

2.1 DPO 回顾

给定策略模型 πθ 和参考模型 πref,DPO 将隐式奖励定义为:

r(q,y)=βlogπθ(y|q)πref(y|q)+Z(q)

基于 Bradley-Terry 模型,DPO 损失为:

LDPO=logσ(βlogπθ(yw|q)πref(yw|q)βlogπθ(yl|q)πref(yl|q))

2.2 多模态 DPO

在多模态场景下,每个偏好实例额外包含图像 m,偏好标签取决于图像和问题的联合条件。目标变为:

LDPOm=logσ(βlogπθ(yw|m,q)πref(yw|m,q)βlogπθ(yl|m,q)πref(yl|m,q))

问题在于:虽然公式中 yw,yl 的概率以 (m,q) 为条件,但优化过程中模型可以仅通过文本模式区分 ywyl,无需真正"看"图像。


三、核心方法

mDPO 在标准多模态 DPO 基础上引入两个额外的优化目标:条件偏好优化(CoPO)锚定偏好优化(AncPO)

3.1 条件偏好优化(Conditional Preference Optimization)

核心思想:构造图像是唯一变量的偏好对,迫使模型基于视觉信息判断偏好。

给定元组 (mw,q,yw)(ml,q,yw),其中 mwml 更适合回答 q 和生成 yw,条件偏好优化目标为:

LCoPO=logσ(βlogπθ(yw|mw,q)πref(yw|mw,q)βlogπθ(yw|ml,q)πref(yw|ml,q))

直觉:固定问题和回答,仅改变图像——原图 mw(chosen)vs 信息缺失图 ml(rejected)。模型必须依赖视觉信息才能区分两者,从而被迫学习"看图"。

拒绝图像的构造策略

ml 需满足两个条件:(1) 与 mw 有足够差异(信息不足),(2) 与 mw 共享部分特征(作为困难负样本)。论文尝试了多种策略:

策略MMHalBench ScoreHalRateCHAIRsCHAIRi
随机图像2.810.4640.76.6
裁剪 0-20%2.960.4227.04.6
裁剪 20%-50%2.920.4233.75.4
MoCo v2 增强2.820.4432.35.9

最优策略是随机裁剪原图的 0-20%——保留大部分原始内容但丢失部分关键视觉信息,形成有效的困难负样本。随机图像过于容易区分,MoCo v2 增强生成的图像与原图过于相似。

3.2 锚定偏好优化(Anchored Preference Optimization)

DPO 的另一个内在问题:它只学习相对偏好,可能在拉大 chosen/rejected 间奖励差距的同时,降低 chosen 响应本身的似然。这在多模态场景中尤为突出。

锚定偏好优化通过强制 chosen 响应的隐式奖励高于锚点值 δ,引入绝对奖励正则化

LAncPO=logσ(βlogπθ(yw|mw,q)πref(yw|mw,q)δ)

即要求 r(mw,q,yw)>δ,默认 δ=0,确保 chosen 响应的隐式奖励为正,从而防止其似然下降。

3.3 完整目标

mDPO 的最终损失是三项之和:

LmDPO=LDPOm+LCoPO+LAncPO

三个目标协同作用:

目标最大化作用
LDPOmσ(r(mw,q,yw)r(mw,q,yl))标准响应偏好学习
LCoPOσ(r(mw,q,yw)r(ml,q,yw))强制利用视觉信息
LAncPOσ(r(mw,q,yw)δ)防止 chosen 似然下降

四、实验结果

4.1 实验设置

  • 模型:Bunny-v1.0-3B(SigLIP + Phi-2)、LLaVA-v1.5-7B(CLIP + Vicuna)
  • 偏好数据:10K 样本,采样自 Silkie 数据集(LLaVA-Instruct 子集)
  • 训练:3 epochs,batch size 32,lr 1e-5,LoRA(α=128, rank=64),β=0.1δ=0
  • 评估:MMHalBench、Object HalBench(CHAIR)、AMBER

4.2 主实验

Bunny-v1.0-3B

方法MMHalBench Score ↑HalRate ↓CHAIRsCHAIRiAMBER CHAIRsCover. ↑HalRate ↓
Bunny-3B2.110.5843.08.99.875.664.9
+ DPO2.280.5644.37.67.974.158.9
+ mDPO2.960.4227.04.64.967.437.7

LLaVA-v1.5-7B

方法MMHalBench Score ↑HalRate ↓CHAIRsCHAIRiAMBER CHAIRsCover. ↑HalRate ↓
LLaVA-1.5-7B2.190.5754.715.97.451.834.7
+ DPO2.140.6549.013.06.555.134.5
+ mDPO2.390.5435.79.84.452.424.5

关键观察

  1. DPO 在 LLaVA-7B 上反而降低性能(Score 从 2.19 降至 2.14,HalRate 从 0.57 升至 0.65),直接印证无条件偏好问题
  2. mDPO 在两个模型上均一致提升:Bunny-3B CHAIRs 降低 37%(43.0→27.0),LLaVA-7B CHAIRs 降低 35%(54.7→35.7)
  3. 3B + 10K 媲美 7B + 80K:Bunny-3B + mDPO(Score 2.96)接近 Qwen-VL-Chat + Silkie-80K DPO(Score 3.01),后者数据量是前者的 8 倍

4.3 参考对比

论文还列出了同期其他方法在 LLaVA-v1.5-7B 上的效果(非直接可比,因基线/数据/方法不同):

方法MMHalBench Score ↑HalRate ↓Object HalBench CHAIRs
+ OPERA2.150.5445.1
+ VCD2.120.5448.8
+ HA-DPO1.970.6039.9
+ HALVA2.250.54-
+ HSA-DPO (13B)2.610.485.2
+ RLHF-V (13B)2.810.4912.2

4.4 消融实验

配置MMHalBench ScoreHalRateCHAIRsCHAIRi
mDPO(完整)2.960.4227.04.6
- conditional(去掉 CoPO)2.360.5340.37.1
- anchored(去掉 AncPO)2.500.4834.35.7
- both(即标准 DPO)2.280.5644.37.6
  • CoPO 是核心:去掉 CoPO 后性能大幅下降(Score 2.96→2.36),远大于去掉 AncPO 的影响(2.96→2.50)
  • 两者结合效果最佳,AncPO 提供额外正则化但单独作用有限

4.5 锚点策略对比

锚点配置MMHalBench ScoreHalRateCHAIRsCHAIRi
yw(默认)2.960.4227.04.6
yw & yl2.980.3929.35.0
yw & yl & ml2.850.4034.76.1

仅对 chosen 响应加锚点即可,额外对 rejected 响应或 rejected 图像加锚点反而可能增加训练复杂度。

4.6 数据规模效应

在 1K/5K/10K 三个规模上对比 DPO 和 mDPO:

  • mDPO 随数据规模持续提升,表现出良好的 scaling 特性
  • DPO 在多模态场景中不具有 scaling 效应,增加数据量无法弥补其忽略视觉模态的缺陷

4.7 细粒度分析

MMHalBench 八类问题中,mDPO 在六类上优于 DPO,特别是在对抗性问题(adversarial) 上提升最为显著(DPO: 1.50 → mDPO: 4.17)——mDPO 能识别问题中关于图像的错误前提并予以纠正,而 DPO 倾向于不加验证地接受问题描述。

4.8 人类评估

在 MMHalBench 上进行人工评估:mDPO 在 34% 的样本上优于 DPO,55% 持平,仅 11% 不如 DPO。整体来看,mDPO 在 89% 的样本上不劣于 DPO。


五、局限性与未来方向

  1. 模型覆盖有限:仅在 3B 和 7B 两个规模上验证,更大模型和不同架构上的效果未知
  2. 与其他改进正交但未组合验证:CoPO 和 AncPO 原则上可与其他偏好数据增强方法(如更好的数据构造、更强的奖励模型)组合,但论文未进行此类实验
  3. 评估基准有限:三个幻觉基准虽然广泛使用,但未覆盖更丰富的真实场景
  4. 拒绝图像构造较简单:随机裁剪 0-20% 虽然有效,但更精细的视觉信息降质策略可能进一步提升效果

六、个人思考

6.1 无条件偏好问题的深刻性

mDPO 最大的贡献在于发现并命名了无条件偏好问题——这是一个优美的实验设计:仅仅移除图像就能揭示 DPO 在多模态场景中的根本缺陷。这说明偏好数据中 chosen/rejected 响应的文本差异本身就足以驱动优化,图像信息在 DPO 目标中是"可选的"。这一观察对所有多输入组件的偏好优化场景都有警示意义。

6.2 与项目中其他偏好优化方法的对比

维度mDPOCSRSENTINEL
核心问题DPO 忽略图像条件自奖励忽略视觉模态幻觉在生成早期萌发
解决思路图像对比偏好对 + 奖励锚定CLIP 校准自奖励 + 迭代 DPO句子级域内偏好 + C-DPO
是否需要额外模型CLIP(已内含于 VLM)开放词汇检测器
偏好数据来源外部(Silkie)自生成自生成
训练方式单轮 DPO三轮迭代单轮 DPO
核心洞察从优化目标层面修复从奖励信号层面修复从偏好数据粒度层面修复

三者从不同角度解决多模态偏好优化的不足:mDPO 修改目标函数,CSR 修改奖励信号,SENTINEL 修改数据构造方式,三者可能互补

6.3 与解码时方法的互补性

mDPO 是训练时方法,与 OPERA(Beam Search 惩罚)、HALC(FOV 对比解码)、ICD(指令对比解码)等 training-free 解码方法互补。实际上,Table 1 中 OPERA 在 LLaVA-7B 上的 MMHalBench Score(2.15)不如 mDPO(2.39),但两者完全可以叠加使用。

6.4 CoPO 的通用性

论文指出条件偏好优化的思想适用于任何多输入组件的偏好优化场景——当偏好目标可以被部分输入满足时,都存在"无条件偏好"的风险。例如在多轮对话、多文档 QA 等场景中,DPO 可能忽略部分上下文。这是一个值得进一步探索的方向。

6.5 拒绝图像构造的启发

随机裁剪 0-20% 作为困难负样本的策略简单但有效——类似于对比学习中困难负样本的设计直觉。这与 HIO 中"反转 BT 模型精准诱导幻觉"的思路形成对比:HIO 在语言端构造困难负样本(精准放大幻觉),mDPO 在视觉端构造困难负样本(轻微裁剪图像)。


参考

  • DPO (Rafailov et al., 2023):直接偏好优化,mDPO 的基础目标
  • Silkie (Li et al., 2023):80K 多模态偏好数据集,mDPO 的数据来源
  • HA-DPO (Zhao et al., 2023):幻觉感知的多模态 DPO,与 mDPO 同期工作
  • RLHF-V (Yu et al., 2024a):细粒度人工纠正 + 密集 DPO,Table 1 参考基线
  • HSA-DPO (Xiao et al., 2024):细粒度 AI 反馈检测和缓解幻觉,Table 1 参考基线
  • OPERA (Huang et al., 2024):注意力聚合模式 + Beam Search 惩罚,Table 1 中的对比方法
  • CSR (Zhou et al., 2024):CLIP 校准自奖励迭代 DPO,从奖励信号角度解决类似问题
  • SENTINEL (Peng et al., 2025):句子级域内偏好 + C-DPO 早期干预