CSR:校准自奖励范式增强视觉-语言模态对齐
论文:Calibrated Self-Rewarding Vision Language Models
作者:Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao
机构:UNC-Chapel Hill, University of Chicago, University of Maryland, Rutgers University
发布时间:2024年5月
发表会议:NeurIPS 2025
分类标签:
LVLMSelf-RewardingDPOModality AlignmentHallucinationCLIP Score
一句话总结
提出 Calibrated Self-Rewarding (CSR):让 LVLM 自己生成候选响应、自己打分、自己构造偏好数据来迭代微调,关键创新在于用 CLIP 图文相关性分数校准语言模型的自评估奖励,将模型注意力重新引导回视觉输入,三轮迭代后在 10 个基准上平均提升 7.62%,CHAIR
一、问题与动机
1.1 LVLM 的模态不对齐问题
大型视觉-语言模型(LVLM)在指令微调后表现优异,但普遍存在幻觉问题——生成的文本虽然语言流畅但与图像内容矛盾。问题根源在于模态不对齐(modality misalignment):即使视觉编码器和语言模型各自能力很强,模型在生成时仍倾向于优先依赖文本知识而忽略视觉输入。
1.2 现有偏好优化方法的不足
| 方法类别 | 代表工作 | 核心问题 |
|---|---|---|
| 人工标注偏好 | LLaVA-RLHF | 成本高昂,标注瓶颈 |
| GPT-4 辅助标注 | Silkie (VLFeedback), POVID | 资源密集,且无法捕获目标 LVLM 的内在偏好 |
| 直接自奖励 | Self-Rewarding LLM | 仅适用于纯文本 LLM,直接迁移到 LVLM 时无法解决模态不对齐——自评估同样会忽略视觉信息 |
论文的核心洞察是:
外部模型(GPT-4)或人工生成的偏好数据容易被目标 LVLM 区分(分布偏移),导致偏好学习效果打折;而纯语言自奖励虽保持分布一致,但在评估阶段同样"看不到图",无法纠正模态偏差。
1.3 自生成偏好 vs 外部偏好的分布差异
论文通过分析 500 个样本验证了这一点(Appendix A.4, Fig. 7):用 GPT-4 改写的 dispreferred response 与目标 LVLM 原始输出分布差异显著——GPT-4 重写的负样本在 LVLM 的采样概率空间中明显偏离,模型很容易区分,从而削弱了 DPO 训练效果。
二、预备知识
2.1 LVLM 的基本形式
给定输入
2.2 Direct Preference Optimization (DPO)
偏好数据集
其中
2.3 CLIP Score
CLIP 模型将图像和文本映射到共享语义空间,CLIP Score 计算图文余弦相似度:
其中
三、核心方法
CSR 的核心框架是一个迭代偏好学习流程,每轮迭代包含两个阶段:(1) 句子级 beam search 生成候选响应 + 校准奖励评分;(2) 偏好对构造 + DPO 微调。
3.1 句子级校准奖励建模
CSR 对奖励的设计满足两个准则:
- 视觉约束奖励:融入图文相关性信息,纠正纯语言奖励忽视视觉输入的缺陷
- 步级奖励:逐句打分而非对整个响应打一个分数,提供更细粒度的引导
对于每个生成的句子
(1) 自生成指令跟随分数
用语言解码器的句子级累积概率衡量模型对该句子的"自信度":
其中
(2) 图文相关性分数
用 CLIP Score 度量句子与输入图像的语义相关性:
这里 CLIP 的视觉编码器与目标 LVLM 使用的视觉编码器对齐(都基于 CLIP-ViT),天然适配。
(3) 校准奖励
两者加权融合:
直觉:纯语言自奖励
3.2 句子级 Beam Search 生成候选响应
CSR 不是直接采样完整响应再打分,而是逐句生成 + 逐步筛选:
- 对每个输入
,并行采样多个候选句子(以句号为分隔符) - 对每个候选句子
计算校准奖励 - 选择奖励最高的 top-
和最低的 bottom- 句子进入下一轮 - 基于选中的句子继续生成下一句
- 重复直到生成
生成一条完整响应
Beam search 的关键配置:
| 参数 | 值 | 说明 |
|---|---|---|
| num_beams | 5 | 每层搜索容量 |
| num_beam_groups | 5 | 组 beam search 增强多样性 |
| diversity_penalty | 3.0 | 控制组间多样性 |
| max_new_tokens | 74 | 每轮最大生成长度(CLIP 编码限制) |
| max_length | 1024 | 防止无限重复 |
3.3 偏好数据构造与迭代 DPO
偏好对选择
对每个输入 prompt,选择累积校准奖励最高的响应作为 preferred
迭代 DPO 训练
第
关键设计:每轮迭代用上一轮微调后的模型作为参考策略
完整算法流程:
- 初始化参考模型
- for
:
- for each input
:
- 用当前模型执行句子级 beam search
- 对每个候选句子计算
、 、 - 选择 top-
和 bottom- 句子进入下轮 - 选择
最高/最低的响应构造偏好对 - 用 DPO 微调模型:
- 更新参考策略:
3.4 理论分析
论文给出了理论保证(Theorem 5.1),在以下假设下:
- 真实输出
- 模型当前参数满足
(模型偏重文本而轻视视觉输入)
定理:只要模型当前倾向于优先利用文本而非视觉信息(即
用大白话说:当模型存在模态偏差(重文本轻图像)时,视觉校准的自奖励理论上保证能比纯语言自奖励产生更好的输出。
四、实验结果
4.1 实验设置
基线模型:LLaVA-1.5 7B / 13B,扩展实验用 Vila 7B
训练设置:
- 数据:LLaVA-150K 数据集中约 13K 样本(detailed description + complex reasoning 子集)
- 微调:LoRA,三轮迭代,单卡 A100 80GB(7B 约 3.5h,13B 约 5h)
- 每轮使用相同的 prompt 和图像,但模型更新后生成的候选不同
评估基准:
- 综合基准:MME
、MME 、SEED、LLaVA 、MMBench、MM-Vet - 通用 VQA:ScienceQA、VizWiz、GQA
- 幻觉基准:POPE、CHAIR
、CHAIR
4.2 主实验:LLaVA-1.5 对比结果
| 方法 | MME | SEED | LLaVA | MM-Vet | SQA | POPE | CHAIR | CHAIR |
|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5-7B | 1510.7 | 58.6 | 63.4 | 30.5 | 66.8 | 85.90 | 48.8 | 14.9 |
| + VLFeedback | 1432.7 | 59.3 | 62.1 | 31.2 | 66.2 | 83.72 | 40.3 | 13.2 |
| + Human-Prefer | 1490.6 | 58.1 | 63.7 | 31.1 | 65.8 | 81.50 | 38.7 | 11.3 |
| + POVID | 1452.8 | 60.2 | 68.7 | 31.8 | 68.8 | 86.90 | 35.2 | 8.3 |
| + RLHF-V | 1489.2 | 60.1 | 65.4 | 30.9 | 67.1 | 86.20 | 29.7 | 7.5 |
| + Self-Rewarding | 1505.6 | 60.0 | 61.2 | 31.4 | 69.6 | 86.88 | 24.0 | 6.7 |
| + CSR (Ours) | 1524.2 | 60.3 | 71.1 | 33.9 | 70.7 | 87.01 | 21.0 | 6.0 |
| 方法 | MME | SEED | LLaVA | MM-Vet | SQA | POPE | CHAIR | CHAIR |
|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5-13B | 1531.3 | 61.6 | 70.7 | 35.4 | 71.6 | 85.90 | 48.3 | 14.1 |
| + Self-Rewarding | 1529.0 | 62.8 | 65.6 | 35.3 | 74.3 | 86.58 | 37.0 | 8.8 |
| + CSR (Ours) | 1530.6 | 62.9 | 74.7 | 37.8 | 75.1 | 87.30 | 28.0 | 7.3 |
关键观察:
- 幻觉大幅降低:7B 模型 CHAIR
从 48.8 降至 21.0(-57%),CHAIR 从 14.9 降至 6.0(-60%) - 综合能力同步提升:LLaVA
+7.7 pp(63.4→71.1),MM-Vet +3.4(30.5→33.9),SQA +3.9(66.8→70.7) - 优于所有偏好基线:相比 POVID、RLHF-V 等使用外部数据的方法和原版 Self-Rewarding,CSR 全面领先
- 优于纯自奖励 2.43%:平均性能超 Self-Rewarding 2.43%,验证了视觉校准的有效性
4.3 迭代改进
| 模型 | 基线 | Iter 1 | Iter 2 | Iter 3 |
|---|---|---|---|---|
| LLaVA-1.5-7B 平均 | 65.96 | 69.22 | 70.43 | 70.99 |
| LLaVA-1.5-13B 平均 | 67.56 | 70.82 | 70.87 | 71.10 |
7B 模型三轮迭代平均提升 7.62%,13B 提升 5.25%。提升主要集中在前两轮,第三轮趋于收敛。LLaVA
4.4 消融实验:视觉 vs 文本奖励
| 奖励配置 | 7B 平均 | 13B 平均 |
|---|---|---|
| 无 CSR (Base) | 65.96 | 67.56 |
| 仅 | 67.66 | 68.70 |
| 仅 | 66.77 | 68.23 |
| CSR (两者结合) | 70.99 | 71.10 |
两者结合远优于单用任一分数。纯语言奖励虽然有一定提升,但无法有效纠正模态偏差;纯 CLIP 奖励缺乏语言质量约束;两者互补才能同时保证语言流畅性和视觉一致性。
4.5 跨模型兼容性
在 Vila 7B 上进行三轮 CSR 迭代:
| 指标 | 基线 | CSR Iter 3 | 提升 |
|---|---|---|---|
| 总体平均 | 70.91 | 73.30 | +3.37% |
| VisWiz | 57.8 | 62.7 | +8.48% |
| MM-Vet | 34.9 | 39.8 | +14.0% |
CSR 在不同 LVLM 骨干上均有效,验证了方法的通用性。
4.6 注意力分析
对比 CSR、Self-Rewarding 和原始 LLaVA-1.5 的注意力分布(Fig. 6),CSR 训练后模型对视觉 token 的注意力显著增强,同时减轻了对上下文文本 token 的过度依赖。这直接印证了 CSR 确实将模型注意力重新引导回视觉模态。
4.7 图文相关性分数的迭代变化
分析三轮迭代中偏好数据的 CLIP 相关性分数分布(Fig. 5):
- Chosen 和 Rejected 响应的图文相关性分数都随迭代提高(模型生成越来越"贴图")
- 两者的差距逐渐缩小(自生成偏好数据变得更有区分度/更具挑战性)
- 这使得后续迭代的偏好学习更加"难",但也更加有效
五、局限性与未来方向
- CLIP Score 粒度有限:CLIP 擅长捕捉整体语义相关性,但对细粒度属性(颜色、数量、空间关系)的区分能力较弱,可能遗漏属性级幻觉
- 句子级粒度:以句号为分隔的句子级 beam search 可能在复杂长句中不够精细
- 迭代收敛:三轮后提升趋于饱和,更多轮次可能面临性能瓶颈或过拟合风险
- 计算成本:虽然单卡可训练,但句子级 beam search + CLIP 评估的数据生成阶段仍有额外开销
- 仅验证了 LLaVA 系列:在更大规模或更新架构(如 Qwen-VL 系列)上的效果有待验证
六、个人思考
6.1 自奖励 + 视觉校准的范式价值
CSR 的核心贡献在于指出了 Self-Rewarding 迁移到多模态场景时的关键缺陷——自评估同样会忽略视觉输入,并给出了简洁优雅的解决方案。CLIP Score 作为视觉校准信号虽然不完美,但其零成本(无需额外模型/标注)和与 LVLM 视觉编码器的天然对齐使其成为一个非常实用的选择。
6.2 与 SENTINEL 的对比
CSR 和 SENTINEL 都用 DPO 做偏好学习来缓解幻觉,但思路不同:
| 维度 | CSR | SENTINEL |
|---|---|---|
| 偏好数据来源 | 句子级 beam search + 校准奖励 | 域内采样 + 检测器交叉验证 |
| 幻觉定位粒度 | 累积奖励(整体响应级) | 句子级(幻觉首次出现处) |
| 视觉信号 | CLIP Score(语义级) | 开放词汇检测器(实例级) |
| 迭代训练 | 三轮在线迭代 | 单轮训练 |
| 核心洞察 | 校准语言奖励的模态偏差 | 幻觉在生成早期萌发并传播 |
两者可能互补:用 SENTINEL 的句子级早期干预策略 + CSR 的 CLIP 校准奖励作为额外信号,可能进一步提升偏好数据质量。
6.3 外部偏好 vs 自生成偏好的分布偏移问题
CSR 的 Appendix A.4 实验验证了一个重要发现:GPT-4 重写的负样本在目标 LVLM 的采样概率空间中与正样本差异过大,模型很容易区分,DPO 训练效果因此打折。这与 SENTINEL 的"域内数据更优"结论高度一致,进一步支持了自生成偏好数据的范式优势。
6.4 与 Embodied AI 中 RL 后训练的联系
CSR 的迭代自奖励框架与 VLA RL 后训练中的一些工作有趣的呼应:
- SRPO(自参照策略优化)同样用模型自身的成功轨迹作为正样本
- 奖励设计中视觉约束的思想类似于机器人 RL 中用 VLM 作为 reward model 时需要确保奖励关注视觉变化
参考
- Self-Rewarding LLM (Yuan et al., 2024):纯文本自奖励范式,CSR 将其扩展到多模态并引入视觉校准
- DPO (Rafailov et al., 2023):直接偏好优化,CSR 的迭代微调基础
- POVID (Zhou et al., 2024):GPT-4 外部偏好 + 噪声图像幻觉触发,CSR 的直接对比基线
- RLHF-V (Yu et al., 2023):人工段落级纠正 + 密集 DPO,代表外部标注方法
- Silkie (Li et al., 2023):VLFeedback 数据集 + GPT-4V 评估,代表大模型辅助偏好方法
- SENTINEL (Peng et al., 2025):域内自举 + 句子级早期干预,与 CSR 从不同角度解决偏好数据构造问题
- CLIP Score (Hessel et al., 2021):无参考图文评估指标,CSR 用作视觉校准信号