Skip to content

LPOI:面向 VLM 的列表级偏好优化

论文LPOI: Listwise Preference Optimization for Vision Language Models

作者:Fatemeh Pesaran zadeh, Yoojin Oh, Gunhee Kim*

机构:Seoul National University

发布时间:2025年5月(arXiv),ACL 2025 录用

🔗 arXiv | 代码

分类标签VLM Hallucination Listwise Ranking DPO Hard Negative Object Masking Visual Prompting


一句话总结

首次将**列表级偏好优化(listwise preference optimization)**引入 VLM 幻觉缓解:通过目标检测定位关键对象 → 渐进式遮蔽生成硬负样本图像序列 → 列表级排序损失训练模型按对象可见度递增排列偏好,无需额外标注,Object HalBench CHAIRS 从 mDPO 的 30.7 降至 24.3(LLaVA-1.5-7B),三个基准上一致超越 DPO/mDPO。


一、问题与动机

1.1 多模态偏好优化的两大痛点

  1. 文本过拟合:DPO 在多模态场景中倾向于仅从文本模式区分 chosen/rejected,忽略视觉信息(mDPO 已揭示的无条件偏好问题)
  2. 图像负样本粗糙:已有方法(如 mDPO 的随机裁剪 0-20%)仅构造二元图像负样本(原图 vs 裁剪图),无法捕捉细粒度的视觉-文本对齐关系

1.2 列表级 vs 配对级偏好优化

偏好优化范式特点局限
Pairwise(DPO/mDPO)每次只比较两个样本无法捕捉多个样本间的相互依赖关系
Listwise(LPOI)同时优化整个排序序列需要构造有序图像列表——此前被认为成本过高

在文本域,已有工作(LiPO、PRO、RRHF)证明列表级优化优于配对级。但在视觉域,构造有序图像样本的成本和复杂度阻碍了相关研究。

1.3 核心思路

LPOI 通过对象感知的渐进遮蔽 + 插值自动生成有序图像列表,解决了列表级图像偏好数据的构造难题:

识别图像中与文本相关的关键对象 → 从无遮蔽(正样本)到完全遮蔽(硬负样本)渐进遮蔽 → 生成按对象可见度递减排列的图像序列 → 列表级损失训练模型"对象越可见 → 正确回答的似然越高"


二、核心方法

2.1 硬负样本生成(Hard Negative Sample Generation)

目标:生成使原本正确的 chosen 回答变成幻觉的图像,同时保持整体语义上下文。

步骤

  1. 对象检测:使用 Grounding-DINO-Tiny(172M 参数)进行零样本对象检测
  2. 对象选择优先级:chosen 回答第一句中的对象 → 问题中的对象 → 回答中其余对象 → 随机检测到的不在文本中的对象
  3. 遮蔽 + 视觉提示:遮蔽选定对象的 bounding box,并用红色圆圈(visual prompting)高亮遮蔽区域,引导模型关注缺失部分
  4. 验证:用 Idefics2-8B 检查遮蔽后的图像是否确实导致幻觉。若未产生幻觉,重新选择另一个对象

直觉:仅遮蔽关键对象而保留整体场景,创造了"语义接近但关键信息缺失"的困难负样本——模型必须真正"看到"对象才能给出正确回答,而非依赖场景上下文推断。

2.2 列表级样本构造(Listwise Sample Generation)

通过插值遮蔽比例自动生成有序图像列表,无需额外标注。

对于列表大小 L,第 k 个图像遮蔽 bounding box 的 k1L1×100%(从最靠近图像边缘的一侧开始遮蔽):

  • x1:原始图像(0% 遮蔽,正样本)
  • xk:部分遮蔽(k1L1×100%
  • xL:完全遮蔽 bounding box(硬负样本)

直觉:以"What is the color of the person's outfit?"为例,L=4 时生成 4 张图像:(1) 完整图像,(2) 部分遮蔽衣服,(3) 遮蔽衣服但保留部分人体,(4) 人和衣服全部遮蔽。模型学习到:对象越完整可见 → 生成正确回答的概率应越高。

2.3 列表级偏好损失

使用列表级排序损失(Plackett-Luce 模型),可视为给定排列的负对数似然:

LListwise(θ)=logk=1zexp(Sk)j=kzexp(Sj)

其中:

Sk=βlogπθ(wxk,q)πref(wxk,q)
  • πθ:微调模型,πref:参考模型
  • Sk 是给定图像 xk 时模型生成 chosen 回答 w 的归一化对数似然
  • 最小化该损失优化 S1>S2>>SL,即对象可见度越高 → 正确回答的似然越大

直觉:不同于 DPO 只区分"好/坏"两档,列表级损失要求模型学会"完全可见 > 部分可见 > 几乎不可见 > 完全遮蔽"的细粒度排序。这迫使模型精确关联对象的实际存在程度与文本描述的可信度。

2.4 完整训练目标

LTotal(θ)=LDPO(θ)+LAnchor(θ)+LListwise(θ)
损失项来源作用
LDPO标准 DPO文本偏好学习(chosen vs rejected 文本)
LAnchormDPO 的锚定损失防止 chosen 响应似然下降
LListwise本文提出图像列表级偏好学习(按对象可见度排序)

其中锚定损失为:

LAnchor=logσ(βlogπθ(wx,q)πref(wx,q)δ)

2.5 视觉提示(Visual Prompting)

遮蔽图像中的对象后,VLM 可能仍通过周围上下文推断出正确答案,导致负样本无效。LPOI 在遮蔽区域叠加红色圆圈,将模型注意力重定向到缺失区域。

Saliency map 分析(Figure 4)显示:添加视觉提示后,模型对遮蔽区域的关注度显著提高,生成更高质量的负样本。


三、实验结果

3.1 实验设置

  • 模型:LLaVA-v1.5-7B/13B、Idefics2-8B
  • 训练数据:10K 偏好数据(Silkie 子集 + LLaVA-Instruct-150K),LoRA 微调
  • 评估基准:Object HalBench(CHAIR)、MMHalBench(GPT-4o 评分)、AMBER
  • 基线:DPO、mDPO、HALVA、HA-DPO、V-DPO

3.2 主实验(Table 1)

LLaVA-v1.5-7B

方法Object HalBench CHAIRSCHAIRIMMHalBench Score ↑HalRate ↓AMBER CHAIRSHalRate ↓
LLaVA-1.5-7B49.726.12.020.657.731.9
+ DPO42.323.22.000.696.733.7
+ mDPO30.716.02.400.595.027.5
+ LPOI24.314.62.400.594.326.4

LLaVA-v1.5-13B

方法Object HalBench CHAIRSCHAIRIMMHalBench Score ↑HalRate ↓AMBER CHAIRSHalRate ↓
LLaVA-1.5-13B44.321.22.090.646.330.2
+ mDPO33.316.62.500.574.625.0
+ LPOI24.311.72.540.573.922.3

Idefics2-8B

方法Object HalBench CHAIRSCHAIRIMMHalBench Score ↑HalRate ↓AMBER CHAIRSHalRate ↓
Idefics2-8B6.34.22.620.433.47.6
+ mDPO7.35.42.800.402.76.2
+ LPOI5.33.62.880.362.65.7

关键观察

  • LPOI 在三个模型 × 三个基准上一致超越 mDPO,特别是 Object HalBench 上 LLaVA-7B CHAIRS 24.3 vs 30.7(相对降低 20.8%),13B CHAIRI 11.7 vs 16.6(相对降低 29.5%)
  • DPO 在 LLaVA-7B 上反而加剧幻觉(MMHalBench HalRate 0.65→0.69),再次验证无条件偏好问题
  • Object HalBench 上 LPOI 的优势最为显著——该基准幻觉率更高、模型区分度更大

3.3 等计算预算对比(Table 2)

在相同 GPU 训练时间(20 小时,单卡 RTX A6000)下,用 5K 数据对 Idefics2-8B 训练:

方法CHAIRSMMHalBench Score ↑HalRate ↓
+ DPO(9 epochs)6.02.290.51
+ mDPO(5 epochs)8.72.710.42
+ LPOI(3 epochs)5.32.810.38

虽然列表级目标每 epoch 训练时间更长(6.2h vs 4.0h vs 2.2h),但在相同 GPU 预算下仍然更优——更丰富的监督信号使每次更新更有效。

3.4 消融实验

列表大小(Table 4)

列表大小Object HalBench CHAIRSCHAIRIMMHalBench Score ↑AMBER CHAIRS
L=37.35.12.862.9
L=46.74.52.862.5
L=55.33.62.882.6

更大的列表提供更细粒度的偏好梯度,Object HalBench 上 L=5L=3 CHAIRS 降低 27.4%。

视觉提示(Table 3)

配置Object HalBench CHAIRIMMHalBench Score ↑HalRate ↓
无视觉提示4.02.740.40
有视觉提示3.42.910.35

视觉提示有效提升负样本质量,引导模型更好地关注缺失区域。

DPO 损失的必要性(Table 5)

配置Object HalBench CHAIRSMMHalBench Score ↑HalRate ↓
LPOI(去掉 DPO 损失)7.72.560.44
LPOI(去掉 DPO + Anchor)6.02.500.45
LPOI(完整)5.72.740.40

仅有列表级图像偏好(无文本 DPO)不足——文本偏好和图像偏好信号互补,两者缺一不可。

3.5 人类评估(Figure 3)

80 个样本(40 AMBER + 40 Object HalBench),3 名标注者,LPOI vs mDPO/DPO:

对比WINTIELOSE
LPOI vs DPO (Object HalBench)47.5%25%27.5%
LPOI vs mDPO (Object HalBench)45%22.5%32.5%
LPOI vs DPO (AMBER)42.5%45%12.5%
LPOI vs mDPO (AMBER)42.5%27.5%30%

四、局限性与未来方向

  1. 仅覆盖视觉-语言模态:未扩展到音频等其他模态的幻觉缓解
  2. 仅支持英文:prompt 和评估均限于英文
  3. 依赖对象检测质量:Grounding-DINO-Tiny 约覆盖 80% 关键名词对象,检测失败时无法生成有效负样本
  4. 遮蔽策略相对简单:固定从边缘开始渐进遮蔽,更精细的语义感知遮蔽策略可能进一步提升
  5. 计算开销:列表大小 L=5 时每 epoch 训练时间约为 DPO 的 2.8 倍(6.2h vs 2.2h)

五、个人思考

5.1 从 mDPO 到 LPOI:图像负样本的演进

LPOI 是 mDPO 的自然扩展——mDPO 在图像端引入二元对比(原图 vs 随机裁剪),LPOI 进一步将其推广为有序列表级对比。对比演进路线:

方法文本偏好图像偏好偏好粒度
DPOpairwise (chosen/rejected)二元
mDPOpairwisebinary (原图/裁剪图)二元
LPOIpairwiselistwise (渐进遮蔽序列)多级有序

LPOI 的核心洞察:对象幻觉不是"有/无"的二元问题,而是一个连续谱——对象的可见程度连续变化,模型应该学会在这个连续谱上对齐其置信度。

5.2 与项目中其他训练时幻觉缓解方法的对比

方法偏好数据来源负样本构造训练目标核心新意
LPOI外部(Silkie)对象遮蔽 + 渐进插值DPO + Anchor + Listwise列表级图像偏好
mDPO外部(Silkie)随机裁剪 0-20%DPO + CoPO + AncPO条件偏好 + 锚定
CSR自生成CLIP 校准评分迭代 DPO自奖励 + 迭代
SIMA自生成三视觉指标DPO自评估
SENTINEL自生成检测器交叉验证C-DPO句子级早期干预
LessIsMore原始数据N/A(数据过滤)Modified MLEEOS 决策保护
ACPO外部标准 DPO 数据非对称标定 DPO锚点崩塌修复

LPOI 的独特之处在于同时解决了两个问题:(1) 图像负样本的质量(对象感知的硬负样本优于随机裁剪),(2) 偏好优化的粒度(列表级优于配对级)。

5.3 对象遮蔽 vs 随机裁剪 vs 噪声扰动

不同方法在图像端构造"降质图像"的策略各异:

降质策略代表方法优点缺点
高斯噪声VCD简单、全局、无需检测粗糙、不针对特定对象
随机裁剪mDPO简单、无依赖可能未裁到关键区域
对象遮蔽LPOI精准针对关键对象依赖检测器、预处理开销
扩散编辑V-DPO语义级篡改计算昂贵

LPOI 在精准度和成本之间取得了不错的平衡——Grounding-DINO-Tiny 仅 172M 参数,处理速度 0.166s/样本。

5.4 验证模块的必要性

Table 10 显示即使去掉验证步骤(即不检查遮蔽后是否真正产生幻觉),LPOI 仍然超越所有基线。验证模块带来的额外提升(CHAIRS 6.0→5.3)值得 5.26 小时的预处理成本,但在快速迭代场景中可以省略。

5.5 与 ACPO 的互补性

ACPO 发现 DPO 训练中 chosen 响应似然下降(视觉锚点崩塌),通过非对称标定系数修复。LPOI 的锚定损失(继承自 mDPO)也部分解决这个问题(δ=0 确保 chosen 奖励为正),但 ACPO 的长度自适应 + 非对称梯度设计更精细。两者的列表级/配对级思想可能有组合空间。


参考

  • mDPO (Wang et al., 2024):条件偏好优化 + 锚定损失——LPOI 的直接前身,提供了 CoPO 和 AncPO 基础
  • DPO (Rafailov et al., 2024):直接偏好优化——所有偏好优化方法的基础
  • LiPO (Liu et al., 2024):文本域的列表级偏好优化——LPOI 列表级损失的理论依据
  • Grounding-DINO (Liu et al., 2024):零样本开放词汇对象检测——LPOI 的关键对象检测组件
  • Silkie (Li et al., 2023):80K 多模态偏好数据集——LPOI 和 mDPO 共用的训练数据来源