LPOI：面向 VLM 的列表级偏好优化

论文：LPOI: Listwise Preference Optimization for Vision Language Models
作者：Fatemeh Pesaran zadeh, Yoojin Oh, Gunhee Kim*
机构：Seoul National University
发布时间：2025年5月（arXiv），ACL 2025 录用
🔗 arXiv | 代码
分类标签：VLM Hallucination Listwise Ranking DPO Hard Negative Object Masking Visual Prompting

一句话总结

首次将**列表级偏好优化（listwise preference optimization）**引入 VLM 幻觉缓解：通过目标检测定位关键对象 → 渐进式遮蔽生成硬负样本图像序列 → 列表级排序损失训练模型按对象可见度递增排列偏好，无需额外标注，Object HalBench CHAIR $_{S}$ 从 mDPO 的 30.7 降至 24.3（LLaVA-1.5-7B），三个基准上一致超越 DPO/mDPO。

一、问题与动机

1.1 多模态偏好优化的两大痛点

文本过拟合：DPO 在多模态场景中倾向于仅从文本模式区分 chosen/rejected，忽略视觉信息（mDPO 已揭示的无条件偏好问题）
图像负样本粗糙：已有方法（如 mDPO 的随机裁剪 0-20%）仅构造二元图像负样本（原图 vs 裁剪图），无法捕捉细粒度的视觉-文本对齐关系

1.2 列表级 vs 配对级偏好优化

偏好优化范式	特点	局限
Pairwise（DPO/mDPO）	每次只比较两个样本	无法捕捉多个样本间的相互依赖关系
Listwise（LPOI）	同时优化整个排序序列	需要构造有序图像列表——此前被认为成本过高

在文本域，已有工作（LiPO、PRO、RRHF）证明列表级优化优于配对级。但在视觉域，构造有序图像样本的成本和复杂度阻碍了相关研究。

1.3 核心思路

LPOI 通过对象感知的渐进遮蔽 + 插值自动生成有序图像列表，解决了列表级图像偏好数据的构造难题：

识别图像中与文本相关的关键对象 → 从无遮蔽（正样本）到完全遮蔽（硬负样本）渐进遮蔽 → 生成按对象可见度递减排列的图像序列 → 列表级损失训练模型"对象越可见 → 正确回答的似然越高"

二、核心方法

2.1 硬负样本生成（Hard Negative Sample Generation）

目标：生成使原本正确的 chosen 回答变成幻觉的图像，同时保持整体语义上下文。

步骤：

对象检测：使用 Grounding-DINO-Tiny（172M 参数）进行零样本对象检测
对象选择优先级：chosen 回答第一句中的对象 → 问题中的对象 → 回答中其余对象 → 随机检测到的不在文本中的对象
遮蔽 + 视觉提示：遮蔽选定对象的 bounding box，并用红色圆圈（visual prompting）高亮遮蔽区域，引导模型关注缺失部分
验证：用 Idefics2-8B 检查遮蔽后的图像是否确实导致幻觉。若未产生幻觉，重新选择另一个对象

直觉：仅遮蔽关键对象而保留整体场景，创造了"语义接近但关键信息缺失"的困难负样本——模型必须真正"看到"对象才能给出正确回答，而非依赖场景上下文推断。

2.2 列表级样本构造（Listwise Sample Generation）

通过插值遮蔽比例自动生成有序图像列表，无需额外标注。

对于列表大小 $L$ ，第 $k$ 个图像遮蔽 bounding box 的 $\frac{k - 1}{L - 1} \times 100 %$ （从最靠近图像边缘的一侧开始遮蔽）：

$x_{1}$ ：原始图像（0% 遮蔽，正样本）
$x_{k}$ ：部分遮蔽（ $\frac{k - 1}{L - 1} \times 100 %$ ）
$x_{L}$ ：完全遮蔽 bounding box（硬负样本）

直觉：以"What is the color of the person's outfit?"为例， $L = 4$ 时生成 4 张图像：(1) 完整图像，(2) 部分遮蔽衣服，(3) 遮蔽衣服但保留部分人体，(4) 人和衣服全部遮蔽。模型学习到：对象越完整可见 → 生成正确回答的概率应越高。

2.3 列表级偏好损失

使用列表级排序损失（Plackett-Luce 模型），可视为给定排列的负对数似然：

L_{Listwise} (θ) = - \log \prod_{k = 1}^{z} \frac{\exp (S_{k})}{\sum_{j = k}^{z} \exp (S_{j})}

其中：

S_{k} = β \log \frac{π_{θ} (w ∣ x_{k}, q)}{π_{ref} (w ∣ x_{k}, q)}

$π_{θ}$ ：微调模型， $π_{ref}$ ：参考模型
$S_{k}$ 是给定图像 $x_{k}$ 时模型生成 chosen 回答 $w$ 的归一化对数似然
最小化该损失优化 $S_{1} > S_{2} > \dots > S_{L}$ ，即对象可见度越高 → 正确回答的似然越大

直觉：不同于 DPO 只区分"好/坏"两档，列表级损失要求模型学会"完全可见 > 部分可见 > 几乎不可见 > 完全遮蔽"的细粒度排序。这迫使模型精确关联对象的实际存在程度与文本描述的可信度。

2.4 完整训练目标

L_{Total} (θ) = L_{DPO} (θ) + L_{Anchor} (θ) + L_{Listwise} (θ)

损失项	来源	作用
$L_{DPO}$	标准 DPO	文本偏好学习（chosen vs rejected 文本）
$L_{Anchor}$	mDPO 的锚定损失	防止 chosen 响应似然下降
$L_{Listwise}$	本文提出	图像列表级偏好学习（按对象可见度排序）

其中锚定损失为：

L_{Anchor} = - \log σ (β \log \frac{π_{θ} (w ∣ x, q)}{π_{ref} (w ∣ x, q)} - δ)

2.5 视觉提示（Visual Prompting）

遮蔽图像中的对象后，VLM 可能仍通过周围上下文推断出正确答案，导致负样本无效。LPOI 在遮蔽区域叠加红色圆圈，将模型注意力重定向到缺失区域。

Saliency map 分析（Figure 4）显示：添加视觉提示后，模型对遮蔽区域的关注度显著提高，生成更高质量的负样本。

三、实验结果

3.1 实验设置

模型：LLaVA-v1.5-7B/13B、Idefics2-8B
训练数据：10K 偏好数据（Silkie 子集 + LLaVA-Instruct-150K），LoRA 微调
评估基准：Object HalBench（CHAIR）、MMHalBench（GPT-4o 评分）、AMBER
基线：DPO、mDPO、HALVA、HA-DPO、V-DPO

3.2 主实验（Table 1）

LLaVA-v1.5-7B

方法	Object HalBench CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	MMHalBench Score ↑	HalRate ↓	AMBER CHAIR $_{S}$ ↓	HalRate ↓
LLaVA-1.5-7B	49.7	26.1	2.02	0.65	7.7	31.9
+ DPO	42.3	23.2	2.00	0.69	6.7	33.7
+ mDPO	30.7	16.0	2.40	0.59	5.0	27.5
+ LPOI	24.3	14.6	2.40	0.59	4.3	26.4

LLaVA-v1.5-13B

方法	Object HalBench CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	MMHalBench Score ↑	HalRate ↓	AMBER CHAIR $_{S}$ ↓	HalRate ↓
LLaVA-1.5-13B	44.3	21.2	2.09	0.64	6.3	30.2
+ mDPO	33.3	16.6	2.50	0.57	4.6	25.0
+ LPOI	24.3	11.7	2.54	0.57	3.9	22.3

Idefics2-8B

方法	Object HalBench CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	MMHalBench Score ↑	HalRate ↓	AMBER CHAIR $_{S}$ ↓	HalRate ↓
Idefics2-8B	6.3	4.2	2.62	0.43	3.4	7.6
+ mDPO	7.3	5.4	2.80	0.40	2.7	6.2
+ LPOI	5.3	3.6	2.88	0.36	2.6	5.7

关键观察：

LPOI 在三个模型 × 三个基准上一致超越 mDPO，特别是 Object HalBench 上 LLaVA-7B CHAIR $_{S}$ 24.3 vs 30.7（相对降低 20.8%），13B CHAIR $_{I}$ 11.7 vs 16.6（相对降低 29.5%）
DPO 在 LLaVA-7B 上反而加剧幻觉（MMHalBench HalRate 0.65→0.69），再次验证无条件偏好问题
Object HalBench 上 LPOI 的优势最为显著——该基准幻觉率更高、模型区分度更大

3.3 等计算预算对比（Table 2）

在相同 GPU 训练时间（20 小时，单卡 RTX A6000）下，用 5K 数据对 Idefics2-8B 训练：

方法	CHAIR $_{S}$ ↓	MMHalBench Score ↑	HalRate ↓
+ DPO（9 epochs）	6.0	2.29	0.51
+ mDPO（5 epochs）	8.7	2.71	0.42
+ LPOI（3 epochs）	5.3	2.81	0.38

虽然列表级目标每 epoch 训练时间更长（6.2h vs 4.0h vs 2.2h），但在相同 GPU 预算下仍然更优——更丰富的监督信号使每次更新更有效。

3.4 消融实验

列表大小（Table 4）

列表大小	Object HalBench CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	MMHalBench Score ↑	AMBER CHAIR $_{S}$ ↓
$L = 3$	7.3	5.1	2.86	2.9
$L = 4$	6.7	4.5	2.86	2.5
$L = 5$	5.3	3.6	2.88	2.6

更大的列表提供更细粒度的偏好梯度，Object HalBench 上 $L = 5$ 比 $L = 3$ CHAIR $_{S}$ 降低 27.4%。

视觉提示（Table 3）

配置	Object HalBench CHAIR $_{I}$ ↓	MMHalBench Score ↑	HalRate ↓
无视觉提示	4.0	2.74	0.40
有视觉提示	3.4	2.91	0.35

视觉提示有效提升负样本质量，引导模型更好地关注缺失区域。

DPO 损失的必要性（Table 5）

配置	Object HalBench CHAIR $_{S}$ ↓	MMHalBench Score ↑	HalRate ↓
LPOI（去掉 DPO 损失）	7.7	2.56	0.44
LPOI（去掉 DPO + Anchor）	6.0	2.50	0.45
LPOI（完整）	5.7	2.74	0.40

仅有列表级图像偏好（无文本 DPO）不足——文本偏好和图像偏好信号互补，两者缺一不可。

3.5 人类评估（Figure 3）

80 个样本（40 AMBER + 40 Object HalBench），3 名标注者，LPOI vs mDPO/DPO：

对比	WIN	TIE	LOSE
LPOI vs DPO (Object HalBench)	47.5%	25%	27.5%
LPOI vs mDPO (Object HalBench)	45%	22.5%	32.5%
LPOI vs DPO (AMBER)	42.5%	45%	12.5%
LPOI vs mDPO (AMBER)	42.5%	27.5%	30%

四、局限性与未来方向

仅覆盖视觉-语言模态：未扩展到音频等其他模态的幻觉缓解
仅支持英文：prompt 和评估均限于英文
依赖对象检测质量：Grounding-DINO-Tiny 约覆盖 80% 关键名词对象，检测失败时无法生成有效负样本
遮蔽策略相对简单：固定从边缘开始渐进遮蔽，更精细的语义感知遮蔽策略可能进一步提升
计算开销：列表大小 $L = 5$ 时每 epoch 训练时间约为 DPO 的 2.8 倍（6.2h vs 2.2h）

五、个人思考

5.1 从 mDPO 到 LPOI：图像负样本的演进

LPOI 是 mDPO 的自然扩展——mDPO 在图像端引入二元对比（原图 vs 随机裁剪），LPOI 进一步将其推广为有序列表级对比。对比演进路线：

方法	文本偏好	图像偏好	偏好粒度
DPO	pairwise (chosen/rejected)	无	二元
mDPO	pairwise	binary (原图/裁剪图)	二元
LPOI	pairwise	listwise (渐进遮蔽序列)	多级有序

LPOI 的核心洞察：对象幻觉不是"有/无"的二元问题，而是一个连续谱——对象的可见程度连续变化，模型应该学会在这个连续谱上对齐其置信度。

5.2 与项目中其他训练时幻觉缓解方法的对比

方法	偏好数据来源	负样本构造	训练目标	核心新意
LPOI	外部（Silkie）	对象遮蔽 + 渐进插值	DPO + Anchor + Listwise	列表级图像偏好
mDPO	外部（Silkie）	随机裁剪 0-20%	DPO + CoPO + AncPO	条件偏好 + 锚定
CSR	自生成	CLIP 校准评分	迭代 DPO	自奖励 + 迭代
SIMA	自生成	三视觉指标	DPO	自评估
SENTINEL	自生成	检测器交叉验证	C-DPO	句子级早期干预
LessIsMore	原始数据	N/A（数据过滤）	Modified MLE	EOS 决策保护
ACPO	外部	标准 DPO 数据	非对称标定 DPO	锚点崩塌修复

LPOI 的独特之处在于同时解决了两个问题：(1) 图像负样本的质量（对象感知的硬负样本优于随机裁剪），(2) 偏好优化的粒度（列表级优于配对级）。

5.3 对象遮蔽 vs 随机裁剪 vs 噪声扰动

不同方法在图像端构造"降质图像"的策略各异：

降质策略	代表方法	优点	缺点
高斯噪声	VCD	简单、全局、无需检测	粗糙、不针对特定对象
随机裁剪	mDPO	简单、无依赖	可能未裁到关键区域
对象遮蔽	LPOI	精准针对关键对象	依赖检测器、预处理开销
扩散编辑	V-DPO	语义级篡改	计算昂贵

LPOI 在精准度和成本之间取得了不错的平衡——Grounding-DINO-Tiny 仅 172M 参数，处理速度 0.166s/样本。

5.4 验证模块的必要性

Table 10 显示即使去掉验证步骤（即不检查遮蔽后是否真正产生幻觉），LPOI 仍然超越所有基线。验证模块带来的额外提升（CHAIR $_{S}$ 6.0→5.3）值得 5.26 小时的预处理成本，但在快速迭代场景中可以省略。

5.5 与 ACPO 的互补性

ACPO 发现 DPO 训练中 chosen 响应似然下降（视觉锚点崩塌），通过非对称标定系数修复。LPOI 的锚定损失（继承自 mDPO）也部分解决这个问题（ $δ = 0$ 确保 chosen 奖励为正），但 ACPO 的长度自适应 + 非对称梯度设计更精细。两者的列表级/配对级思想可能有组合空间。

参考

mDPO (Wang et al., 2024)：条件偏好优化 + 锚定损失——LPOI 的直接前身，提供了 CoPO 和 AncPO 基础
DPO (Rafailov et al., 2024)：直接偏好优化——所有偏好优化方法的基础
LiPO (Liu et al., 2024)：文本域的列表级偏好优化——LPOI 列表级损失的理论依据
Grounding-DINO (Liu et al., 2024)：零样本开放词汇对象检测——LPOI 的关键对象检测组件
Silkie (Li et al., 2023)：80K 多模态偏好数据集——LPOI 和 mDPO 共用的训练数据来源

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

LPOI：面向 VLM 的列表级偏好优化 ​

一句话总结 ​

一、问题与动机 ​

1.1 多模态偏好优化的两大痛点 ​

1.2 列表级 vs 配对级偏好优化 ​

1.3 核心思路 ​

二、核心方法 ​

2.1 硬负样本生成（Hard Negative Sample Generation） ​

2.2 列表级样本构造（Listwise Sample Generation） ​

2.3 列表级偏好损失 ​

2.4 完整训练目标 ​

2.5 视觉提示（Visual Prompting） ​

三、实验结果 ​

3.1 实验设置 ​

3.2 主实验（Table 1） ​

LLaVA-v1.5-7B ​

LLaVA-v1.5-13B ​

Idefics2-8B ​

3.3 等计算预算对比（Table 2） ​

3.4 消融实验 ​

列表大小（Table 4） ​

视觉提示（Table 3） ​

DPO 损失的必要性（Table 5） ​

3.5 人类评估（Figure 3） ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 从 mDPO 到 LPOI：图像负样本的演进 ​

5.2 与项目中其他训练时幻觉缓解方法的对比 ​

5.3 对象遮蔽 vs 随机裁剪 vs 噪声扰动 ​

5.4 验证模块的必要性 ​

5.5 与 ACPO 的互补性 ​

参考 ​