Skip to content

CSR:校准自奖励范式增强视觉-语言模态对齐

论文Calibrated Self-Rewarding Vision Language Models

作者:Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao

机构:UNC-Chapel Hill, University of Chicago, University of Maryland, Rutgers University

发布时间:2024年5月

论文链接arXiv | GitHub

发表会议:NeurIPS 2025

分类标签LVLM Self-Rewarding DPO Modality Alignment Hallucination CLIP Score


一句话总结

提出 Calibrated Self-Rewarding (CSR):让 LVLM 自己生成候选响应、自己打分、自己构造偏好数据来迭代微调,关键创新在于用 CLIP 图文相关性分数校准语言模型的自评估奖励,将模型注意力重新引导回视觉输入,三轮迭代后在 10 个基准上平均提升 7.62%,CHAIRS 降低 57%。


一、问题与动机

1.1 LVLM 的模态不对齐问题

大型视觉-语言模型(LVLM)在指令微调后表现优异,但普遍存在幻觉问题——生成的文本虽然语言流畅但与图像内容矛盾。问题根源在于模态不对齐(modality misalignment):即使视觉编码器和语言模型各自能力很强,模型在生成时仍倾向于优先依赖文本知识而忽略视觉输入

1.2 现有偏好优化方法的不足

方法类别代表工作核心问题
人工标注偏好LLaVA-RLHF成本高昂,标注瓶颈
GPT-4 辅助标注Silkie (VLFeedback), POVID资源密集,且无法捕获目标 LVLM 的内在偏好
直接自奖励Self-Rewarding LLM仅适用于纯文本 LLM,直接迁移到 LVLM 时无法解决模态不对齐——自评估同样会忽略视觉信息

论文的核心洞察是:

外部模型(GPT-4)或人工生成的偏好数据容易被目标 LVLM 区分(分布偏移),导致偏好学习效果打折;而纯语言自奖励虽保持分布一致,但在评估阶段同样"看不到图",无法纠正模态偏差。

1.3 自生成偏好 vs 外部偏好的分布差异

论文通过分析 500 个样本验证了这一点(Appendix A.4, Fig. 7):用 GPT-4 改写的 dispreferred response 与目标 LVLM 原始输出分布差异显著——GPT-4 重写的负样本在 LVLM 的采样概率空间中明显偏离,模型很容易区分,从而削弱了 DPO 训练效果。


二、预备知识

2.1 LVLM 的基本形式

给定输入 x=(xv,xt)(图像 + 文本提示),LVLM 输出文本响应 y,其策略表示为 πθ(y|x)

2.2 Direct Preference Optimization (DPO)

偏好数据集 D={(x(i),yw(i),yl(i))}i=1N,DPO 损失为:

LDPO(πθ;πref)=E(x,yw,yl)D[logσ(αlogπθ(yw|x)πref(yw|x)αlogπθ(yl|x)πref(yl|x))]

其中 πref 是参考策略(SFT 后的模型),α 控制偏离程度。

2.3 CLIP Score

CLIP 模型将图像和文本映射到共享语义空间,CLIP Score 计算图文余弦相似度:

CLIP-Score(xv,s)=max(100cos(FI(xv),FT(s)),0)

其中 FIFT 分别是 CLIP 的视觉和文本编码器。


三、核心方法

CSR 的核心框架是一个迭代偏好学习流程,每轮迭代包含两个阶段:(1) 句子级 beam search 生成候选响应 + 校准奖励评分;(2) 偏好对构造 + DPO 微调。

3.1 句子级校准奖励建模

CSR 对奖励的设计满足两个准则:

  • 视觉约束奖励:融入图文相关性信息,纠正纯语言奖励忽视视觉输入的缺陷
  • 步级奖励:逐句打分而非对整个响应打一个分数,提供更细粒度的引导

对于每个生成的句子 s,校准奖励由两部分组成:

(1) 自生成指令跟随分数 RT(s)

用语言解码器的句子级累积概率衡量模型对该句子的"自信度":

RT(s)=t=1NoP(rtx,r1,r2,,rt1)

其中 No 是句子 s 中 token 数,rt 是第 t 个 token。用大白话说,RT(s) 就是模型认为自己生成这句话有多"自然"。

(2) 图文相关性分数 RI(s)

用 CLIP Score 度量句子与输入图像的语义相关性:

RI(s)=max(100cos(FI(xv),FT(s)),0)

这里 CLIP 的视觉编码器与目标 LVLM 使用的视觉编码器对齐(都基于 CLIP-ViT),天然适配。

(3) 校准奖励

两者加权融合:

R(s)=λRI(s)+(1λ)RT(s)

λ 是平衡超参数。实验中 λ=0.9,即大幅倾斜于视觉校准(CLIP 分数权重 0.9,语言分数权重 0.1),强制模型在奖励评估时优先考虑视觉一致性。

直觉:纯语言自奖励 RT 容易给"语言流畅但与图无关"的句子高分(因为模型本身就倾向生成此类内容)。引入 RI 后,只有既流畅又与图像相关的句子才能获得高校准奖励。

3.2 句子级 Beam Search 生成候选响应

CSR 不是直接采样完整响应再打分,而是逐句生成 + 逐步筛选

  1. 对每个输入 (xv,xt),并行采样多个候选句子(以句号为分隔符)
  2. 对每个候选句子 s 计算校准奖励 R(s)
  3. 选择奖励最高的 top-k 和最低的 bottom-k 句子进入下一轮
  4. 基于选中的句子继续生成下一句
  5. 重复直到生成 eos

生成一条完整响应 y={s1,s2,,sNy} 后,其累积奖励为:

R(y)=i=1NyR(si)

Beam search 的关键配置:

参数说明
num_beams5每层搜索容量
num_beam_groups5组 beam search 增强多样性
diversity_penalty3.0控制组间多样性
max_new_tokens74每轮最大生成长度(CLIP 编码限制)
max_length1024防止无限重复

3.3 偏好数据构造与迭代 DPO

偏好对选择

对每个输入 prompt,选择累积校准奖励最高的响应作为 preferred yw最低的作为 dispreferred yl

Dt={(x(i),yw,t(i),yl,t(i))}i=1N

迭代 DPO 训练

t 轮迭代的 DPO 损失:

Lt=E(x,yw,t,yl,t)Dt[logσ(αlogπθ(yw,t|x)πθt1(yw,t|x)αlogπθ(yl,t|x)πθt1(yl,t|x))]

关键设计:每轮迭代用上一轮微调后的模型作为参考策略 πθt1,同时用更新后的模型重新生成偏好数据。

完整算法流程:

  1. 初始化参考模型 πref
  2. for t=1,,T
    1. for each input xD
      1. 用当前模型执行句子级 beam search
      2. 对每个候选句子计算 RT(s)RI(s)R(s)
      3. 选择 top-k 和 bottom-k 句子进入下轮
    2. 选择 R(y) 最高/最低的响应构造偏好对
    3. 用 DPO 微调模型:πθargminθLt
    4. 更新参考策略:πrefπθ

3.4 理论分析

论文给出了理论保证(Theorem 5.1),在以下假设下:

  • 真实输出 ytruth=V1xv+V2xt+ϵy
  • 模型当前参数满足 βV1ββV2β(模型偏重文本而轻视视觉输入)

定理:只要模型当前倾向于优先利用文本而非视觉信息(即 V1 的信号被低估),存在 λ<1 使得引入图文相关性分数后的 CSR 优于不使用视觉校准(λ=1)的纯语言自奖励:

Eπθt+1(λ)(y|x)[L(y)]<Eπθt+1(1)(y|x)[L(y)]

用大白话说:当模型存在模态偏差(重文本轻图像)时,视觉校准的自奖励理论上保证能比纯语言自奖励产生更好的输出。


四、实验结果

4.1 实验设置

基线模型:LLaVA-1.5 7B / 13B,扩展实验用 Vila 7B

训练设置

  • 数据:LLaVA-150K 数据集中约 13K 样本(detailed description + complex reasoning 子集)
  • 微调:LoRA,三轮迭代,单卡 A100 80GB(7B 约 3.5h,13B 约 5h)
  • 每轮使用相同的 prompt 和图像,但模型更新后生成的候选不同

评估基准

  • 综合基准:MMEP、MMEC、SEED、LLaVAW、MMBench、MM-Vet
  • 通用 VQA:ScienceQA、VizWiz、GQA
  • 幻觉基准:POPE、CHAIRS、CHAIRI

4.2 主实验:LLaVA-1.5 对比结果

方法MMEPSEEDLLaVAWMM-VetSQAIPOPECHAIRSCHAIRI
LLaVA-1.5-7B1510.758.663.430.566.885.9048.814.9
+ VLFeedback1432.759.362.131.266.283.7240.313.2
+ Human-Prefer1490.658.163.731.165.881.5038.711.3
+ POVID1452.860.268.731.868.886.9035.28.3
+ RLHF-V1489.260.165.430.967.186.2029.77.5
+ Self-Rewarding1505.660.061.231.469.686.8824.06.7
+ CSR (Ours)1524.260.371.133.970.787.0121.06.0
方法MMEPSEEDLLaVAWMM-VetSQAIPOPECHAIRSCHAIRI
LLaVA-1.5-13B1531.361.670.735.471.685.9048.314.1
+ Self-Rewarding1529.062.865.635.374.386.5837.08.8
+ CSR (Ours)1530.662.974.737.875.187.3028.07.3

关键观察

  1. 幻觉大幅降低:7B 模型 CHAIRS 从 48.8 降至 21.0(-57%),CHAIRI 从 14.9 降至 6.0(-60%)
  2. 综合能力同步提升:LLaVAW +7.7 pp(63.4→71.1),MM-Vet +3.4(30.5→33.9),SQAI +3.9(66.8→70.7)
  3. 优于所有偏好基线:相比 POVID、RLHF-V 等使用外部数据的方法和原版 Self-Rewarding,CSR 全面领先
  4. 优于纯自奖励 2.43%:平均性能超 Self-Rewarding 2.43%,验证了视觉校准的有效性

4.3 迭代改进

模型基线Iter 1Iter 2Iter 3
LLaVA-1.5-7B 平均65.9669.2270.4370.99
LLaVA-1.5-13B 平均67.5670.8270.8771.10

7B 模型三轮迭代平均提升 7.62%,13B 提升 5.25%。提升主要集中在前两轮,第三轮趋于收敛。LLaVAW 和 CHAIR 的改善尤为显著(分别 +8.9% 和 -49.5%)。

4.4 消融实验:视觉 vs 文本奖励

奖励配置7B 平均13B 平均
无 CSR (Base)65.9667.56
RT(纯语言奖励)67.6668.70
RI(纯 CLIP 奖励)66.7768.23
CSR (两者结合)70.9971.10

两者结合远优于单用任一分数。纯语言奖励虽然有一定提升,但无法有效纠正模态偏差;纯 CLIP 奖励缺乏语言质量约束;两者互补才能同时保证语言流畅性和视觉一致性。

4.5 跨模型兼容性

在 Vila 7B 上进行三轮 CSR 迭代:

指标基线CSR Iter 3提升
总体平均70.9173.30+3.37%
VisWiz57.862.7+8.48%
MM-Vet34.939.8+14.0%

CSR 在不同 LVLM 骨干上均有效,验证了方法的通用性。

4.6 注意力分析

对比 CSR、Self-Rewarding 和原始 LLaVA-1.5 的注意力分布(Fig. 6),CSR 训练后模型对视觉 token 的注意力显著增强,同时减轻了对上下文文本 token 的过度依赖。这直接印证了 CSR 确实将模型注意力重新引导回视觉模态

4.7 图文相关性分数的迭代变化

分析三轮迭代中偏好数据的 CLIP 相关性分数分布(Fig. 5):

  • Chosen 和 Rejected 响应的图文相关性分数都随迭代提高(模型生成越来越"贴图")
  • 两者的差距逐渐缩小(自生成偏好数据变得更有区分度/更具挑战性)
  • 这使得后续迭代的偏好学习更加"难",但也更加有效

五、局限性与未来方向

  1. CLIP Score 粒度有限:CLIP 擅长捕捉整体语义相关性,但对细粒度属性(颜色、数量、空间关系)的区分能力较弱,可能遗漏属性级幻觉
  2. 句子级粒度:以句号为分隔的句子级 beam search 可能在复杂长句中不够精细
  3. 迭代收敛:三轮后提升趋于饱和,更多轮次可能面临性能瓶颈或过拟合风险
  4. 计算成本:虽然单卡可训练,但句子级 beam search + CLIP 评估的数据生成阶段仍有额外开销
  5. 仅验证了 LLaVA 系列:在更大规模或更新架构(如 Qwen-VL 系列)上的效果有待验证

六、个人思考

6.1 自奖励 + 视觉校准的范式价值

CSR 的核心贡献在于指出了 Self-Rewarding 迁移到多模态场景时的关键缺陷——自评估同样会忽略视觉输入,并给出了简洁优雅的解决方案。CLIP Score 作为视觉校准信号虽然不完美,但其零成本(无需额外模型/标注)和与 LVLM 视觉编码器的天然对齐使其成为一个非常实用的选择。

6.2 与 SENTINEL 的对比

CSR 和 SENTINEL 都用 DPO 做偏好学习来缓解幻觉,但思路不同:

维度CSRSENTINEL
偏好数据来源句子级 beam search + 校准奖励域内采样 + 检测器交叉验证
幻觉定位粒度累积奖励(整体响应级)句子级(幻觉首次出现处)
视觉信号CLIP Score(语义级)开放词汇检测器(实例级)
迭代训练三轮在线迭代单轮训练
核心洞察校准语言奖励的模态偏差幻觉在生成早期萌发并传播

两者可能互补:用 SENTINEL 的句子级早期干预策略 + CSR 的 CLIP 校准奖励作为额外信号,可能进一步提升偏好数据质量。

6.3 外部偏好 vs 自生成偏好的分布偏移问题

CSR 的 Appendix A.4 实验验证了一个重要发现:GPT-4 重写的负样本在目标 LVLM 的采样概率空间中与正样本差异过大,模型很容易区分,DPO 训练效果因此打折。这与 SENTINEL 的"域内数据更优"结论高度一致,进一步支持了自生成偏好数据的范式优势。

6.4 与 Embodied AI 中 RL 后训练的联系

CSR 的迭代自奖励框架与 VLA RL 后训练中的一些工作有趣的呼应:

  • SRPO(自参照策略优化)同样用模型自身的成功轨迹作为正样本
  • 奖励设计中视觉约束的思想类似于机器人 RL 中用 VLM 作为 reward model 时需要确保奖励关注视觉变化

参考

  • Self-Rewarding LLM (Yuan et al., 2024):纯文本自奖励范式,CSR 将其扩展到多模态并引入视觉校准
  • DPO (Rafailov et al., 2023):直接偏好优化,CSR 的迭代微调基础
  • POVID (Zhou et al., 2024):GPT-4 外部偏好 + 噪声图像幻觉触发,CSR 的直接对比基线
  • RLHF-V (Yu et al., 2023):人工段落级纠正 + 密集 DPO,代表外部标注方法
  • Silkie (Li et al., 2023):VLFeedback 数据集 + GPT-4V 评估,代表大模型辅助偏好方法
  • SENTINEL (Peng et al., 2025):域内自举 + 句子级早期干预,与 CSR 从不同角度解决偏好数据构造问题
  • CLIP Score (Hessel et al., 2021):无参考图文评估指标,CSR 用作视觉校准信号