LPOI:面向 VLM 的列表级偏好优化
论文:LPOI: Listwise Preference Optimization for Vision Language Models
作者:Fatemeh Pesaran zadeh, Yoojin Oh, Gunhee Kim*
机构:Seoul National University
发布时间:2025年5月(arXiv),ACL 2025 录用
分类标签:
VLMHallucinationListwise RankingDPOHard NegativeObject MaskingVisual Prompting
一句话总结
首次将**列表级偏好优化(listwise preference optimization)**引入 VLM 幻觉缓解:通过目标检测定位关键对象 → 渐进式遮蔽生成硬负样本图像序列 → 列表级排序损失训练模型按对象可见度递增排列偏好,无需额外标注,Object HalBench CHAIR
一、问题与动机
1.1 多模态偏好优化的两大痛点
- 文本过拟合:DPO 在多模态场景中倾向于仅从文本模式区分 chosen/rejected,忽略视觉信息(mDPO 已揭示的无条件偏好问题)
- 图像负样本粗糙:已有方法(如 mDPO 的随机裁剪 0-20%)仅构造二元图像负样本(原图 vs 裁剪图),无法捕捉细粒度的视觉-文本对齐关系
1.2 列表级 vs 配对级偏好优化
| 偏好优化范式 | 特点 | 局限 |
|---|---|---|
| Pairwise(DPO/mDPO) | 每次只比较两个样本 | 无法捕捉多个样本间的相互依赖关系 |
| Listwise(LPOI) | 同时优化整个排序序列 | 需要构造有序图像列表——此前被认为成本过高 |
在文本域,已有工作(LiPO、PRO、RRHF)证明列表级优化优于配对级。但在视觉域,构造有序图像样本的成本和复杂度阻碍了相关研究。
1.3 核心思路
LPOI 通过对象感知的渐进遮蔽 + 插值自动生成有序图像列表,解决了列表级图像偏好数据的构造难题:
识别图像中与文本相关的关键对象 → 从无遮蔽(正样本)到完全遮蔽(硬负样本)渐进遮蔽 → 生成按对象可见度递减排列的图像序列 → 列表级损失训练模型"对象越可见 → 正确回答的似然越高"
二、核心方法
2.1 硬负样本生成(Hard Negative Sample Generation)
目标:生成使原本正确的 chosen 回答变成幻觉的图像,同时保持整体语义上下文。
步骤:
- 对象检测:使用 Grounding-DINO-Tiny(172M 参数)进行零样本对象检测
- 对象选择优先级:chosen 回答第一句中的对象 → 问题中的对象 → 回答中其余对象 → 随机检测到的不在文本中的对象
- 遮蔽 + 视觉提示:遮蔽选定对象的 bounding box,并用红色圆圈(visual prompting)高亮遮蔽区域,引导模型关注缺失部分
- 验证:用 Idefics2-8B 检查遮蔽后的图像是否确实导致幻觉。若未产生幻觉,重新选择另一个对象
直觉:仅遮蔽关键对象而保留整体场景,创造了"语义接近但关键信息缺失"的困难负样本——模型必须真正"看到"对象才能给出正确回答,而非依赖场景上下文推断。
2.2 列表级样本构造(Listwise Sample Generation)
通过插值遮蔽比例自动生成有序图像列表,无需额外标注。
对于列表大小
:原始图像(0% 遮蔽,正样本) :部分遮蔽( ) :完全遮蔽 bounding box(硬负样本)
直觉:以"What is the color of the person's outfit?"为例,
时生成 4 张图像:(1) 完整图像,(2) 部分遮蔽衣服,(3) 遮蔽衣服但保留部分人体,(4) 人和衣服全部遮蔽。模型学习到:对象越完整可见 → 生成正确回答的概率应越高。
2.3 列表级偏好损失
使用列表级排序损失(Plackett-Luce 模型),可视为给定排列的负对数似然:
其中:
:微调模型, :参考模型 是给定图像 时模型生成 chosen 回答 的归一化对数似然 - 最小化该损失优化
,即对象可见度越高 → 正确回答的似然越大
直觉:不同于 DPO 只区分"好/坏"两档,列表级损失要求模型学会"完全可见 > 部分可见 > 几乎不可见 > 完全遮蔽"的细粒度排序。这迫使模型精确关联对象的实际存在程度与文本描述的可信度。
2.4 完整训练目标
| 损失项 | 来源 | 作用 |
|---|---|---|
| 标准 DPO | 文本偏好学习(chosen vs rejected 文本) | |
| mDPO 的锚定损失 | 防止 chosen 响应似然下降 | |
| 本文提出 | 图像列表级偏好学习(按对象可见度排序) |
其中锚定损失为:
2.5 视觉提示(Visual Prompting)
遮蔽图像中的对象后,VLM 可能仍通过周围上下文推断出正确答案,导致负样本无效。LPOI 在遮蔽区域叠加红色圆圈,将模型注意力重定向到缺失区域。
Saliency map 分析(Figure 4)显示:添加视觉提示后,模型对遮蔽区域的关注度显著提高,生成更高质量的负样本。
三、实验结果
3.1 实验设置
- 模型:LLaVA-v1.5-7B/13B、Idefics2-8B
- 训练数据:10K 偏好数据(Silkie 子集 + LLaVA-Instruct-150K),LoRA 微调
- 评估基准:Object HalBench(CHAIR)、MMHalBench(GPT-4o 评分)、AMBER
- 基线:DPO、mDPO、HALVA、HA-DPO、V-DPO
3.2 主实验(Table 1)
LLaVA-v1.5-7B
| 方法 | Object HalBench CHAIR | CHAIR | MMHalBench Score ↑ | HalRate ↓ | AMBER CHAIR | HalRate ↓ |
|---|---|---|---|---|---|---|
| LLaVA-1.5-7B | 49.7 | 26.1 | 2.02 | 0.65 | 7.7 | 31.9 |
| + DPO | 42.3 | 23.2 | 2.00 | 0.69 | 6.7 | 33.7 |
| + mDPO | 30.7 | 16.0 | 2.40 | 0.59 | 5.0 | 27.5 |
| + LPOI | 24.3 | 14.6 | 2.40 | 0.59 | 4.3 | 26.4 |
LLaVA-v1.5-13B
| 方法 | Object HalBench CHAIR | CHAIR | MMHalBench Score ↑ | HalRate ↓ | AMBER CHAIR | HalRate ↓ |
|---|---|---|---|---|---|---|
| LLaVA-1.5-13B | 44.3 | 21.2 | 2.09 | 0.64 | 6.3 | 30.2 |
| + mDPO | 33.3 | 16.6 | 2.50 | 0.57 | 4.6 | 25.0 |
| + LPOI | 24.3 | 11.7 | 2.54 | 0.57 | 3.9 | 22.3 |
Idefics2-8B
| 方法 | Object HalBench CHAIR | CHAIR | MMHalBench Score ↑ | HalRate ↓ | AMBER CHAIR | HalRate ↓ |
|---|---|---|---|---|---|---|
| Idefics2-8B | 6.3 | 4.2 | 2.62 | 0.43 | 3.4 | 7.6 |
| + mDPO | 7.3 | 5.4 | 2.80 | 0.40 | 2.7 | 6.2 |
| + LPOI | 5.3 | 3.6 | 2.88 | 0.36 | 2.6 | 5.7 |
关键观察:
- LPOI 在三个模型 × 三个基准上一致超越 mDPO,特别是 Object HalBench 上 LLaVA-7B CHAIR
24.3 vs 30.7(相对降低 20.8%),13B CHAIR 11.7 vs 16.6(相对降低 29.5%) - DPO 在 LLaVA-7B 上反而加剧幻觉(MMHalBench HalRate 0.65→0.69),再次验证无条件偏好问题
- Object HalBench 上 LPOI 的优势最为显著——该基准幻觉率更高、模型区分度更大
3.3 等计算预算对比(Table 2)
在相同 GPU 训练时间(20 小时,单卡 RTX A6000)下,用 5K 数据对 Idefics2-8B 训练:
| 方法 | CHAIR | MMHalBench Score ↑ | HalRate ↓ |
|---|---|---|---|
| + DPO(9 epochs) | 6.0 | 2.29 | 0.51 |
| + mDPO(5 epochs) | 8.7 | 2.71 | 0.42 |
| + LPOI(3 epochs) | 5.3 | 2.81 | 0.38 |
虽然列表级目标每 epoch 训练时间更长(6.2h vs 4.0h vs 2.2h),但在相同 GPU 预算下仍然更优——更丰富的监督信号使每次更新更有效。
3.4 消融实验
列表大小(Table 4)
| 列表大小 | Object HalBench CHAIR | CHAIR | MMHalBench Score ↑ | AMBER CHAIR |
|---|---|---|---|---|
| 7.3 | 5.1 | 2.86 | 2.9 | |
| 6.7 | 4.5 | 2.86 | 2.5 | |
| 5.3 | 3.6 | 2.88 | 2.6 |
更大的列表提供更细粒度的偏好梯度,Object HalBench 上
视觉提示(Table 3)
| 配置 | Object HalBench CHAIR | MMHalBench Score ↑ | HalRate ↓ |
|---|---|---|---|
| 无视觉提示 | 4.0 | 2.74 | 0.40 |
| 有视觉提示 | 3.4 | 2.91 | 0.35 |
视觉提示有效提升负样本质量,引导模型更好地关注缺失区域。
DPO 损失的必要性(Table 5)
| 配置 | Object HalBench CHAIR | MMHalBench Score ↑ | HalRate ↓ |
|---|---|---|---|
| LPOI(去掉 DPO 损失) | 7.7 | 2.56 | 0.44 |
| LPOI(去掉 DPO + Anchor) | 6.0 | 2.50 | 0.45 |
| LPOI(完整) | 5.7 | 2.74 | 0.40 |
仅有列表级图像偏好(无文本 DPO)不足——文本偏好和图像偏好信号互补,两者缺一不可。
3.5 人类评估(Figure 3)
80 个样本(40 AMBER + 40 Object HalBench),3 名标注者,LPOI vs mDPO/DPO:
| 对比 | WIN | TIE | LOSE |
|---|---|---|---|
| LPOI vs DPO (Object HalBench) | 47.5% | 25% | 27.5% |
| LPOI vs mDPO (Object HalBench) | 45% | 22.5% | 32.5% |
| LPOI vs DPO (AMBER) | 42.5% | 45% | 12.5% |
| LPOI vs mDPO (AMBER) | 42.5% | 27.5% | 30% |
四、局限性与未来方向
- 仅覆盖视觉-语言模态:未扩展到音频等其他模态的幻觉缓解
- 仅支持英文:prompt 和评估均限于英文
- 依赖对象检测质量:Grounding-DINO-Tiny 约覆盖 80% 关键名词对象,检测失败时无法生成有效负样本
- 遮蔽策略相对简单:固定从边缘开始渐进遮蔽,更精细的语义感知遮蔽策略可能进一步提升
- 计算开销:列表大小
时每 epoch 训练时间约为 DPO 的 2.8 倍(6.2h vs 2.2h)
五、个人思考
5.1 从 mDPO 到 LPOI:图像负样本的演进
LPOI 是 mDPO 的自然扩展——mDPO 在图像端引入二元对比(原图 vs 随机裁剪),LPOI 进一步将其推广为有序列表级对比。对比演进路线:
| 方法 | 文本偏好 | 图像偏好 | 偏好粒度 |
|---|---|---|---|
| DPO | pairwise (chosen/rejected) | 无 | 二元 |
| mDPO | pairwise | binary (原图/裁剪图) | 二元 |
| LPOI | pairwise | listwise (渐进遮蔽序列) | 多级有序 |
LPOI 的核心洞察:对象幻觉不是"有/无"的二元问题,而是一个连续谱——对象的可见程度连续变化,模型应该学会在这个连续谱上对齐其置信度。
5.2 与项目中其他训练时幻觉缓解方法的对比
| 方法 | 偏好数据来源 | 负样本构造 | 训练目标 | 核心新意 |
|---|---|---|---|---|
| LPOI | 外部(Silkie) | 对象遮蔽 + 渐进插值 | DPO + Anchor + Listwise | 列表级图像偏好 |
| mDPO | 外部(Silkie) | 随机裁剪 0-20% | DPO + CoPO + AncPO | 条件偏好 + 锚定 |
| CSR | 自生成 | CLIP 校准评分 | 迭代 DPO | 自奖励 + 迭代 |
| SIMA | 自生成 | 三视觉指标 | DPO | 自评估 |
| SENTINEL | 自生成 | 检测器交叉验证 | C-DPO | 句子级早期干预 |
| LessIsMore | 原始数据 | N/A(数据过滤) | Modified MLE | EOS 决策保护 |
| ACPO | 外部 | 标准 DPO 数据 | 非对称标定 DPO | 锚点崩塌修复 |
LPOI 的独特之处在于同时解决了两个问题:(1) 图像负样本的质量(对象感知的硬负样本优于随机裁剪),(2) 偏好优化的粒度(列表级优于配对级)。
5.3 对象遮蔽 vs 随机裁剪 vs 噪声扰动
不同方法在图像端构造"降质图像"的策略各异:
| 降质策略 | 代表方法 | 优点 | 缺点 |
|---|---|---|---|
| 高斯噪声 | VCD | 简单、全局、无需检测 | 粗糙、不针对特定对象 |
| 随机裁剪 | mDPO | 简单、无依赖 | 可能未裁到关键区域 |
| 对象遮蔽 | LPOI | 精准针对关键对象 | 依赖检测器、预处理开销 |
| 扩散编辑 | V-DPO | 语义级篡改 | 计算昂贵 |
LPOI 在精准度和成本之间取得了不错的平衡——Grounding-DINO-Tiny 仅 172M 参数,处理速度 0.166s/样本。
5.4 验证模块的必要性
Table 10 显示即使去掉验证步骤(即不检查遮蔽后是否真正产生幻觉),LPOI 仍然超越所有基线。验证模块带来的额外提升(CHAIR
5.5 与 ACPO 的互补性
ACPO 发现 DPO 训练中 chosen 响应似然下降(视觉锚点崩塌),通过非对称标定系数修复。LPOI 的锚定损失(继承自 mDPO)也部分解决这个问题(
参考
- mDPO (Wang et al., 2024):条件偏好优化 + 锚定损失——LPOI 的直接前身,提供了 CoPO 和 AncPO 基础
- DPO (Rafailov et al., 2024):直接偏好优化——所有偏好优化方法的基础
- LiPO (Liu et al., 2024):文本域的列表级偏好优化——LPOI 列表级损失的理论依据
- Grounding-DINO (Liu et al., 2024):零样本开放词汇对象检测——LPOI 的关键对象检测组件
- Silkie (Li et al., 2023):80K 多模态偏好数据集——LPOI 和 mDPO 共用的训练数据来源