CSR：校准自奖励范式增强视觉-语言模态对齐

论文：Calibrated Self-Rewarding Vision Language Models
作者：Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao
机构：UNC-Chapel Hill, University of Chicago, University of Maryland, Rutgers University
发布时间：2024年5月
论文链接：arXiv | GitHub
发表会议：NeurIPS 2025
分类标签：LVLM Self-Rewarding DPO Modality Alignment Hallucination CLIP Score

一句话总结

提出 Calibrated Self-Rewarding (CSR)：让 LVLM 自己生成候选响应、自己打分、自己构造偏好数据来迭代微调，关键创新在于用 CLIP 图文相关性分数校准语言模型的自评估奖励，将模型注意力重新引导回视觉输入，三轮迭代后在 10 个基准上平均提升 7.62%，CHAIR $_{S}$ 降低 57%。

一、问题与动机

1.1 LVLM 的模态不对齐问题

大型视觉-语言模型（LVLM）在指令微调后表现优异，但普遍存在幻觉问题——生成的文本虽然语言流畅但与图像内容矛盾。问题根源在于模态不对齐（modality misalignment）：即使视觉编码器和语言模型各自能力很强，模型在生成时仍倾向于优先依赖文本知识而忽略视觉输入。

1.2 现有偏好优化方法的不足

方法类别	代表工作	核心问题
人工标注偏好	LLaVA-RLHF	成本高昂，标注瓶颈
GPT-4 辅助标注	Silkie (VLFeedback), POVID	资源密集，且无法捕获目标 LVLM 的内在偏好
直接自奖励	Self-Rewarding LLM	仅适用于纯文本 LLM，直接迁移到 LVLM 时无法解决模态不对齐——自评估同样会忽略视觉信息

论文的核心洞察是：

外部模型（GPT-4）或人工生成的偏好数据容易被目标 LVLM 区分（分布偏移），导致偏好学习效果打折；而纯语言自奖励虽保持分布一致，但在评估阶段同样"看不到图"，无法纠正模态偏差。

1.3 自生成偏好 vs 外部偏好的分布差异

论文通过分析 500 个样本验证了这一点（Appendix A.4, Fig. 7）：用 GPT-4 改写的 dispreferred response 与目标 LVLM 原始输出分布差异显著——GPT-4 重写的负样本在 LVLM 的采样概率空间中明显偏离，模型很容易区分，从而削弱了 DPO 训练效果。

二、预备知识

2.1 LVLM 的基本形式

给定输入 $x = (x_{v}, x_{t})$ （图像 + 文本提示），LVLM 输出文本响应 $y$ ，其策略表示为 $π_{θ} (y | x)$ 。

2.2 Direct Preference Optimization (DPO)

偏好数据集 $D = {(x^{(i)}, y_{w}^{(i)}, y_{l}^{(i)})}_{i = 1}^{N}$ ，DPO 损失为：

L_{DPO} (π_{θ}; π_{ref}) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (α \log \frac{π_{θ} (y_{w} | x)}{π_{ref} (y_{w} | x)} - α \log \frac{π_{θ} (y_{l} | x)}{π_{ref} (y_{l} | x)})]

其中 $π_{ref}$ 是参考策略（SFT 后的模型）， $α$ 控制偏离程度。

2.3 CLIP Score

CLIP 模型将图像和文本映射到共享语义空间，CLIP Score 计算图文余弦相似度：

CLIP-Score (x_{v}, s) = max (100 \cdot \cos (F_{I} (x_{v}), F_{T} (s)), 0)

其中 $F_{I}$ 和 $F_{T}$ 分别是 CLIP 的视觉和文本编码器。

三、核心方法

CSR 的核心框架是一个迭代偏好学习流程，每轮迭代包含两个阶段：(1) 句子级 beam search 生成候选响应 + 校准奖励评分；(2) 偏好对构造 + DPO 微调。

3.1 句子级校准奖励建模

CSR 对奖励的设计满足两个准则：

视觉约束奖励：融入图文相关性信息，纠正纯语言奖励忽视视觉输入的缺陷
步级奖励：逐句打分而非对整个响应打一个分数，提供更细粒度的引导

对于每个生成的句子 $s$ ，校准奖励由两部分组成：

(1) 自生成指令跟随分数 $R_{T} (s)$

用语言解码器的句子级累积概率衡量模型对该句子的"自信度"：

R_{T} (s) = \prod_{t = 1}^{N_{o}} P (r_{t} ∣ x, r_{1}, r_{2}, \dots, r_{t - 1})

其中 $N_{o}$ 是句子 $s$ 中 token 数， $r_{t}$ 是第 $t$ 个 token。用大白话说， $R_{T} (s)$ 就是模型认为自己生成这句话有多"自然"。

(2) 图文相关性分数 $R_{I} (s)$

用 CLIP Score 度量句子与输入图像的语义相关性：

R_{I} (s) = max (100 \cdot \cos (F_{I} (x_{v}), F_{T} (s)), 0)

这里 CLIP 的视觉编码器与目标 LVLM 使用的视觉编码器对齐（都基于 CLIP-ViT），天然适配。

(3) 校准奖励

两者加权融合：

R (s) = λ \cdot R_{I} (s) + (1 - λ) \cdot R_{T} (s)

$λ$ 是平衡超参数。实验中 $λ = 0.9$ ，即大幅倾斜于视觉校准（CLIP 分数权重 0.9，语言分数权重 0.1），强制模型在奖励评估时优先考虑视觉一致性。

直觉：纯语言自奖励 $R_{T}$ 容易给"语言流畅但与图无关"的句子高分（因为模型本身就倾向生成此类内容）。引入 $R_{I}$ 后，只有既流畅又与图像相关的句子才能获得高校准奖励。

3.2 句子级 Beam Search 生成候选响应

CSR 不是直接采样完整响应再打分，而是逐句生成 + 逐步筛选：

对每个输入 $(x_{v}, x_{t})$ ，并行采样多个候选句子（以句号为分隔符）
对每个候选句子 $s$ 计算校准奖励 $R (s)$
选择奖励最高的 top- $k$ 和最低的 bottom- $k$ 句子进入下一轮
基于选中的句子继续生成下一句
重复直到生成 $⟨ eos ⟩$

生成一条完整响应 $y = {s_{1}, s_{2}, \dots, s_{N_{y}}}$ 后，其累积奖励为：

R (y) = \sum_{i = 1}^{N_{y}} R (s_{i})

Beam search 的关键配置：

参数	值	说明
num_beams	5	每层搜索容量
num_beam_groups	5	组 beam search 增强多样性
diversity_penalty	3.0	控制组间多样性
max_new_tokens	74	每轮最大生成长度（CLIP 编码限制）
max_length	1024	防止无限重复

3.3 偏好数据构造与迭代 DPO

偏好对选择

对每个输入 prompt，选择累积校准奖励最高的响应作为 preferred $y_{w}$ ，最低的作为 dispreferred $y_{l}$ ：

D_{t} = {(x^{(i)}, y_{w, t}^{(i)}, y_{l, t}^{(i)})}_{i = 1}^{N}

迭代 DPO 训练

第 $t$ 轮迭代的 DPO 损失：

L_{t} = - E_{(x, y_{w, t}, y_{l, t}) \sim D_{t}} [\log σ (α \log \frac{π_{θ} (y_{w, t} | x)}{π_{θ_{t - 1}} (y_{w, t} | x)} - α \log \frac{π_{θ} (y_{l, t} | x)}{π_{θ_{t - 1}} (y_{l, t} | x)})]

关键设计：每轮迭代用上一轮微调后的模型作为参考策略 $π_{θ_{t - 1}}$ ，同时用更新后的模型重新生成偏好数据。

完整算法流程：

初始化参考模型 $π_{ref}$
for $t = 1, \dots, T$ ：
for each input $x \in D$ ：
用当前模型执行句子级 beam search
对每个候选句子计算 $R_{T} (s)$ 、 $R_{I} (s)$ 、 $R (s)$
选择 top- $k$ 和 bottom- $k$ 句子进入下轮
选择 $R (y)$ 最高/最低的响应构造偏好对
用 DPO 微调模型： $π_{θ} \leftarrow \arg min_{θ} L_{t}$
更新参考策略： $π_{ref} \leftarrow π_{θ}$

3.4 理论分析

论文给出了理论保证（Theorem 5.1），在以下假设下：

真实输出 $y_{truth} = V_{1}^{*} x_{v} + V_{2}^{*} x_{t} + ϵ_{y}$
模型当前参数满足 $∥ β^{* ⊤} V_{1}^{⊤} β^{*} ∥ ≪ ∥ β^{* ⊤} V_{2}^{⊤} β^{*} ∥$ （模型偏重文本而轻视视觉输入）

定理：只要模型当前倾向于优先利用文本而非视觉信息（即 $V_{1}$ 的信号被低估），存在 $λ < 1$ 使得引入图文相关性分数后的 CSR 优于不使用视觉校准（ $λ = 1$ ）的纯语言自奖励：

E_{π_{θ_{t + 1} (λ)} (y | x)} [L (y)] < E_{π_{θ_{t + 1} (1)} (y | x)} [L (y)]

用大白话说：当模型存在模态偏差（重文本轻图像）时，视觉校准的自奖励理论上保证能比纯语言自奖励产生更好的输出。

四、实验结果

4.1 实验设置

基线模型：LLaVA-1.5 7B / 13B，扩展实验用 Vila 7B

训练设置：

数据：LLaVA-150K 数据集中约 13K 样本（detailed description + complex reasoning 子集）
微调：LoRA，三轮迭代，单卡 A100 80GB（7B 约 3.5h，13B 约 5h）
每轮使用相同的 prompt 和图像，但模型更新后生成的候选不同

评估基准：

综合基准：MME $^{P}$ 、MME $^{C}$ 、SEED、LLaVA $^{W}$ 、MMBench、MM-Vet
通用 VQA：ScienceQA、VizWiz、GQA
幻觉基准：POPE、CHAIR $_{S}$ 、CHAIR $_{I}$

4.2 主实验：LLaVA-1.5 对比结果

方法	MME $^{P}$	SEED	LLaVA $^{W}$	MM-Vet	SQA $^{I}$	POPE	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓
LLaVA-1.5-7B	1510.7	58.6	63.4	30.5	66.8	85.90	48.8	14.9
+ VLFeedback	1432.7	59.3	62.1	31.2	66.2	83.72	40.3	13.2
+ Human-Prefer	1490.6	58.1	63.7	31.1	65.8	81.50	38.7	11.3
+ POVID	1452.8	60.2	68.7	31.8	68.8	86.90	35.2	8.3
+ RLHF-V	1489.2	60.1	65.4	30.9	67.1	86.20	29.7	7.5
+ Self-Rewarding	1505.6	60.0	61.2	31.4	69.6	86.88	24.0	6.7
+ CSR (Ours)	1524.2	60.3	71.1	33.9	70.7	87.01	21.0	6.0

方法	MME $^{P}$	SEED	LLaVA $^{W}$	MM-Vet	SQA $^{I}$	POPE	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓
LLaVA-1.5-13B	1531.3	61.6	70.7	35.4	71.6	85.90	48.3	14.1
+ Self-Rewarding	1529.0	62.8	65.6	35.3	74.3	86.58	37.0	8.8
+ CSR (Ours)	1530.6	62.9	74.7	37.8	75.1	87.30	28.0	7.3

关键观察：

幻觉大幅降低：7B 模型 CHAIR $_{S}$ 从 48.8 降至 21.0（-57%），CHAIR $_{I}$ 从 14.9 降至 6.0（-60%）
综合能力同步提升：LLaVA $^{W}$ +7.7 pp（63.4→71.1），MM-Vet +3.4（30.5→33.9），SQA $^{I}$ +3.9（66.8→70.7）
优于所有偏好基线：相比 POVID、RLHF-V 等使用外部数据的方法和原版 Self-Rewarding，CSR 全面领先
优于纯自奖励 2.43%：平均性能超 Self-Rewarding 2.43%，验证了视觉校准的有效性

4.3 迭代改进

模型	基线	Iter 1	Iter 2	Iter 3
LLaVA-1.5-7B 平均	65.96	69.22	70.43	70.99
LLaVA-1.5-13B 平均	67.56	70.82	70.87	71.10

7B 模型三轮迭代平均提升 7.62%，13B 提升 5.25%。提升主要集中在前两轮，第三轮趋于收敛。LLaVA $^{W}$ 和 CHAIR 的改善尤为显著（分别 +8.9% 和 -49.5%）。

4.4 消融实验：视觉 vs 文本奖励

奖励配置	7B 平均	13B 平均
无 CSR (Base)	65.96	67.56
仅 $R_{T}$ （纯语言奖励）	67.66	68.70
仅 $R_{I}$ （纯 CLIP 奖励）	66.77	68.23
CSR (两者结合)	70.99	71.10

两者结合远优于单用任一分数。纯语言奖励虽然有一定提升，但无法有效纠正模态偏差；纯 CLIP 奖励缺乏语言质量约束；两者互补才能同时保证语言流畅性和视觉一致性。

4.5 跨模型兼容性

在 Vila 7B 上进行三轮 CSR 迭代：

指标	基线	CSR Iter 3	提升
总体平均	70.91	73.30	+3.37%
VisWiz	57.8	62.7	+8.48%
MM-Vet	34.9	39.8	+14.0%

CSR 在不同 LVLM 骨干上均有效，验证了方法的通用性。

4.6 注意力分析

对比 CSR、Self-Rewarding 和原始 LLaVA-1.5 的注意力分布（Fig. 6），CSR 训练后模型对视觉 token 的注意力显著增强，同时减轻了对上下文文本 token 的过度依赖。这直接印证了 CSR 确实将模型注意力重新引导回视觉模态。

4.7 图文相关性分数的迭代变化

分析三轮迭代中偏好数据的 CLIP 相关性分数分布（Fig. 5）：

Chosen 和 Rejected 响应的图文相关性分数都随迭代提高（模型生成越来越"贴图"）
两者的差距逐渐缩小（自生成偏好数据变得更有区分度/更具挑战性）
这使得后续迭代的偏好学习更加"难"，但也更加有效

五、局限性与未来方向

CLIP Score 粒度有限：CLIP 擅长捕捉整体语义相关性，但对细粒度属性（颜色、数量、空间关系）的区分能力较弱，可能遗漏属性级幻觉
句子级粒度：以句号为分隔的句子级 beam search 可能在复杂长句中不够精细
迭代收敛：三轮后提升趋于饱和，更多轮次可能面临性能瓶颈或过拟合风险
计算成本：虽然单卡可训练，但句子级 beam search + CLIP 评估的数据生成阶段仍有额外开销
仅验证了 LLaVA 系列：在更大规模或更新架构（如 Qwen-VL 系列）上的效果有待验证

六、个人思考

6.1 自奖励 + 视觉校准的范式价值

CSR 的核心贡献在于指出了 Self-Rewarding 迁移到多模态场景时的关键缺陷——自评估同样会忽略视觉输入，并给出了简洁优雅的解决方案。CLIP Score 作为视觉校准信号虽然不完美，但其零成本（无需额外模型/标注）和与 LVLM 视觉编码器的天然对齐使其成为一个非常实用的选择。

6.2 与 SENTINEL 的对比

CSR 和 SENTINEL 都用 DPO 做偏好学习来缓解幻觉，但思路不同：

维度	CSR	SENTINEL
偏好数据来源	句子级 beam search + 校准奖励	域内采样 + 检测器交叉验证
幻觉定位粒度	累积奖励（整体响应级）	句子级（幻觉首次出现处）
视觉信号	CLIP Score（语义级）	开放词汇检测器（实例级）
迭代训练	三轮在线迭代	单轮训练
核心洞察	校准语言奖励的模态偏差	幻觉在生成早期萌发并传播

两者可能互补：用 SENTINEL 的句子级早期干预策略 + CSR 的 CLIP 校准奖励作为额外信号，可能进一步提升偏好数据质量。

6.3 外部偏好 vs 自生成偏好的分布偏移问题

CSR 的 Appendix A.4 实验验证了一个重要发现：GPT-4 重写的负样本在目标 LVLM 的采样概率空间中与正样本差异过大，模型很容易区分，DPO 训练效果因此打折。这与 SENTINEL 的"域内数据更优"结论高度一致，进一步支持了自生成偏好数据的范式优势。

6.4 与 Embodied AI 中 RL 后训练的联系

CSR 的迭代自奖励框架与 VLA RL 后训练中的一些工作有趣的呼应：

SRPO（自参照策略优化）同样用模型自身的成功轨迹作为正样本
奖励设计中视觉约束的思想类似于机器人 RL 中用 VLM 作为 reward model 时需要确保奖励关注视觉变化

参考

Self-Rewarding LLM (Yuan et al., 2024)：纯文本自奖励范式，CSR 将其扩展到多模态并引入视觉校准
DPO (Rafailov et al., 2023)：直接偏好优化，CSR 的迭代微调基础
POVID (Zhou et al., 2024)：GPT-4 外部偏好 + 噪声图像幻觉触发，CSR 的直接对比基线
RLHF-V (Yu et al., 2023)：人工段落级纠正 + 密集 DPO，代表外部标注方法
Silkie (Li et al., 2023)：VLFeedback 数据集 + GPT-4V 评估，代表大模型辅助偏好方法
SENTINEL (Peng et al., 2025)：域内自举 + 句子级早期干预，与 CSR 从不同角度解决偏好数据构造问题
CLIP Score (Hessel et al., 2021)：无参考图文评估指标，CSR 用作视觉校准信号

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

CSR：校准自奖励范式增强视觉-语言模态对齐 ​

一句话总结 ​

一、问题与动机 ​

1.1 LVLM 的模态不对齐问题 ​

1.2 现有偏好优化方法的不足 ​

1.3 自生成偏好 vs 外部偏好的分布差异 ​

二、预备知识 ​

2.1 LVLM 的基本形式 ​

2.2 Direct Preference Optimization (DPO) ​

2.3 CLIP Score ​

三、核心方法 ​

3.1 句子级校准奖励建模 ​

(1) 自生成指令跟随分数 RT(s) ​

(2) 图文相关性分数 RI(s) ​

(3) 校准奖励 ​

3.2 句子级 Beam Search 生成候选响应 ​

3.3 偏好数据构造与迭代 DPO ​

偏好对选择 ​

迭代 DPO 训练 ​

3.4 理论分析 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 主实验：LLaVA-1.5 对比结果 ​

4.3 迭代改进 ​

4.4 消融实验：视觉 vs 文本奖励 ​

4.5 跨模型兼容性 ​

4.6 注意力分析 ​

4.7 图文相关性分数的迭代变化 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 自奖励 + 视觉校准的范式价值 ​

6.2 与 SENTINEL 的对比 ​

6.3 外部偏好 vs 自生成偏好的分布偏移问题 ​

6.4 与 Embodied AI 中 RL 后训练的联系 ​

参考 ​