SIMA：通过自改进增强大视觉语言模型的视觉-语言模态对齐

论文：Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement
作者：Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, Parminder Bhatia, Furong Huang, Cao Xiao
机构：University of Maryland (College Park), UNC-Chapel Hill, GE Healthcare
发布时间：2024年5月
论文链接：arXiv | GitHub
发表会议：NAACL 2025 Findings
分类标签：LVLM Self-Improvement DPO In-Context Self-Critic Hallucination Modality Alignment

一句话总结

提出 Self-Improvement Modality Alignment (SIMA)：让 LVLM 自己生成多样候选响应、自己通过三个视觉评估指标（物体描述准确性、关系描绘准确性、属性描述准确性）评判响应优劣、自己构造偏好数据进行 DPO 微调，完全无需外部模型或数据，在 14 个基准上平均提升 7.5%，CHAIR $_{S}$ 降低 19.5%。

一、问题与动机

1.1 视觉-语言模态不对齐问题

LVLM 在视觉指令微调后虽然表现出色，但仍普遍存在幻觉问题。根本原因在于模态不对齐（modality misalignment）：模型在生成时倾向于依赖文本先验知识而忽略视觉输入，导致输出与图像内容不一致。

1.2 现有方法的两大瓶颈

瓶颈	具体表现	代表方法
依赖外部模型/数据	使用 GPT-4 生成指令数据集或改写响应，成本高且难以规模化；视觉指令数据集规模远小于纯文本指令数据集	LLaVA-RLHF, HA-DPO, POVID
分布偏移	外部模型与目标 LVLM 之间存在显著分布差异，外部模型注入的幻觉不能代表目标模型会产生的幻觉，导致偏好学习效果打折	POVID（用 GPT 注入幻觉作为负样本）

1.3 核心洞察

外部模型（GPT-4）生成的负样本与目标 LVLM 的输出分布差异过大，模型很容易区分正负样本，DPO 训练因此打折。而让模型自己生成候选响应，天然保持分布一致性，能更有效地纠正模型自身的模态偏差。

典型例子：POVID 用外部模型刻意注入物体幻觉作为负样本，但这些幻觉并非目标 LVLM 自身会产生的错误模式，学习此类数据对模型改进有限。

二、预备知识

2.1 LVLM 的基本形式

给定输入 $x = (I, x_{t})$ （图像 + 文本提示），LVLM 策略 $π_{θ}$ 输出文本响应 $y$ 。

2.2 Direct Preference Optimization (DPO)

偏好数据集 $D_{p} = {(I, x, y_{w}, y_{l})}$ ，DPO 损失：

L_{DPO} (π_{θ}; π_{ref}) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (β \log \frac{π_{θ} (y_{w} | x, I)}{π_{ref} (y_{w} | x, I)} - β \log \frac{π_{θ} (y_{l} | x, I)}{π_{ref} (y_{l} | x, I)})]

其中 $π_{ref}$ 是参考策略（视觉指令微调后的模型）， $β$ 控制偏离参考策略的程度。

三、核心方法

SIMA 包含三个阶段：响应自生成 → 上下文自评估 → 偏好微调，完全由模型自身驱动，无需外部模型或额外数据。

3.1 响应自生成（Response Self-Generation）

给定图像和对应的 prompt，用当前模型 $π_{θ}$ 生成两个不同的候选响应：

响应 1：使用 greedy decoding（贪心解码），生成模型最确信的输出
响应 2：使用 temperature sampling（ $T = 0.8$ ），引入随机性以获得多样化输出

关键设计：两个响应都来自目标模型自身，避免了外部模型带来的分布偏移。高温采样的响应更容易出现幻觉，与贪心解码的响应形成自然的质量差异，为后续评判提供有意义的对比。

Prompt 来源：从 LLaVA-Instruct-150K 中的 complex_reasoning_77k 和 detail_23k 两个子集随机采样 17k 条 prompt，不引入额外数据。

3.2 上下文自评估（In-Context Self-Critic）

这是 SIMA 的核心创新。将自生成的两个响应连同精心设计的 critic prompt 输入当前 LVLM，让模型自己判断哪个响应更好。

Critic Prompt 的四个组成部分

（1）图像、问题和 Ground Truth

与纯 LLM 不同，LVLM 评估的核心在于视觉理解准确性，这是一个可量化的指标。因此必须提供 ground truth 响应作为参考基准。由于 prompt 本身来自视觉指令微调数据集，对应的 ground truth 已在微调阶段使用过，因此这一设计合理可行。

（2）三个视觉评估指标

这是 SIMA 的关键设计。仅提供 ground truth 参考还不够——LVLM 可能会基于输出格式或安全性选择响应，而非基于视觉理解准确性。三个指标将评估引导至视觉理解维度：

指标	评估内容	引导方向
Accuracy in Object Description	物体描述的准确性	减少 ground truth 中不存在的物体描述，减少对已有物体的错误描述
Accuracy in Depicting Relationships	物体间关系描绘的准确性	优先选择最少扭曲物体间关系的响应
Accuracy in Describing Attributes	物体属性描述的准确性	避免对物体特征的不准确描述

（3）Demonstrations

提供两个排序示范（in-context learning），确保 LVLM 输出正确的格式。

（4）输出格式

要求 LVLM 输出结构化结果：先分别对比两个响应与 ground truth，然后给出最终选择 [[<响应编号>]]。

Critic Prompt 结构

系统指令：说明评估任务和三个视觉评估指标
两个排序示范（完整的评估和选择过程）
当前任务：提供图像、问题、ground truth、两个候选响应
要求输出格式：The reason: <比较分析>. The better AI generated response: [[<编号>]]

3.3 偏好微调（Preference Tuning）

通过自评估获得偏好对 ${y_{w}, y_{l}}$ 后，使用 DPO 更新当前模型。

3.4 完整算法流程

初始化当前 LVLM $π_{θ}$ 和参考模型 $π_{ref}$ （均为视觉指令微调权重）
for $i = 1, \dots, N$ （遍历每个 prompt）：
用 $π_{θ}$ 通过 greedy decoding 生成响应 1
用 $π_{θ}$ 通过 temperature sampling 生成响应 2
用 $π_{θ}$ 结合 critic prompt 评估两个响应，选出 $y_{w}$ 和 $y_{l}$
将偏好对 ${y_{w}, y_{l}}$ 加入偏好数据集 $D_{p}$
用 DPO 损失更新 $π_{θ}$

3.5 关键超参数

参数	值
LoRA rank	128
LoRA alpha	256
mm projector lr	2e-5
learning rate	1e-7
model max length	2048
batch size	1
decoding temperature	0.8
采样 prompt 数	17k
训练 epoch（7B）	3
训练 epoch（13B）	1（13B 更易过拟合）
GPU	1× A100 80GB
训练耗时（7B/13B）	15h / 7h

四、实验结果

4.1 幻觉基准

Table 1：幻觉基准对比

方法	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	MM-Hal↑	Mementos $^{O}$ ↑	Mementos $^{B}$ ↑
LLaVA-1.5-7B	50.8	11.7	2.04	39.29%	23.02%
+ RLHF	45.3	11.1	2.11	40.53%	22.71%
+ GT-DPO	47.3	11.2	2.00	43.67%	24.35%
+ HA-DPO	46.5	10.7	1.97	41.07%	23.58%
+ POVID	48.4	11.3	2.28	42.95%	23.84%
+ SIMA (ours)	40.9	10.4	2.30	46.08%	26.03%
LLaVA-1.5-13B	48.6	10.8	2.19	40.37%	24.65%
+ SIMA (ours)	45.8	10.6	2.41	45.84%	27.17%

关键数字：

7B 模型物体幻觉（CHAIR $_{S}$ 、CHAIR $_{I}$ 、Mementos $^{O}$ ）平均提升 16.1%
13B 模型物体幻觉平均提升 7.1%
MM-Hal（GPT 评估综合幻觉）：7B +12.7%，13B +10.1%
Mementos $^{B}$ （行为幻觉）：7B +13.1%——虽然三个 critic 指标聚焦物体幻觉，但减少物体幻觉也间接降低了行为幻觉

4.2 综合基准

Table 2：综合基准对比

方法	LLaVA $^{W}$ ↑	SQA $^{I}$ ↑	VQA $^{T}$ ↑	MME $^{P}$ ↑	MME $^{C}$ ↑	MMB↑	MM-Vet↑	SEED↑	VisWiz↑
LLaVA-1.5-7B	63.4	66.8	58.2	1506.4	355.7	64.3	30.5	58.6	50.0
+ RLHF	63.7	65.8	58.3	1508.2	360.2	60.4	31.1	60.0	52.2
+ GT-DPO	64.7	67.4	58.1	1510.8	365.0	64.6	31.2	60.4	53.8
+ HA-DPO	64.2	68.1	58.0	1507.2	362.3	63.9	30.9	60.2	53.9
+ POVID	65.3	69.2	58.1	1493.5	363.5	64.1	31.3	60.3	54.0
+ SIMA (ours)	66.1	69.1	58.5	1507.7	379.3	64.9	31.6	60.6	54.4
LLaVA-1.5-13B	66.5	71.6	61.3	1531.1	296.1	67.7	36.1	61.6	53.6
+ SIMA (ours)	67.4	72.5	61.2	1538.1	298.6	68.4	38.3	63.0	55.5

SIMA 在九个综合基准上也实现了平均 3.5%（7B）和 2.1%（13B）的提升，全面优于其他偏好优化方法。

4.3 三个视觉评估指标的重要性

Table 3：有/无评估指标的对比

配置	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	MM-Hal↑	Mem $^{O}$ ↑	Mem $^{B}$ ↑	LLaVA $^{W}$ ↑	MME $^{C}$ ↑
LLaVA-1.5-7B	50.8	11.7	2.04	39.29%	23.02%	63.4	355.7
+ SIMA w/o metrics	41.5	10.8	2.12	41.55%	23.92%	63.3	371.7
+ SIMA (ours)	40.9	10.4	2.30	46.08%	26.03%	66.1	379.3

去掉三个指标后虽然仍优于基线，但在 MM-Hal 和 Mementos 等更具挑战性的任务上提升显著不足。

Table 4：评估结果与人工判断的一致性

评估方式	与人工一致率
SIMA w/o metrics	78.2%
SIMA (with metrics)	89.8%
GPT-4V	95.6%

引入三个视觉指标后，LVLM 自评估的准确率从 78.2% 提升至 89.8%（+11.6 pp），接近 GPT-4V 的 95.6%。这证明了视觉评估指标是 SIMA 的核心：它们将 LVLM 的自评估注意力从输出格式/安全性重新引导至视觉内容准确性。

4.4 消融实验

训练 Epoch 数

Epoch	CHAIR $_{S}$ ↓	MM-Hal↑	Mem $^{O}$ ↑	LLaVA $^{W}$ ↑	MME $^{C}$ ↑
LLaVA-1.5-7B	50.8	2.04	39.29%	63.4	355.7
Epoch 1	43.9	2.17	42.39%	65.3	369.6
Epoch 2	41.6	2.28	45.71%	66.1	371.8
Epoch 3	40.9	2.30	46.08%	66.1	379.3

提升主要集中在前两个 epoch，第三个 epoch 趋于收敛。13B 模型仅训练 1 个 epoch 效果最佳，训练更多会过拟合。

解码温度

温度 $T$	CHAIR $_{S}$ ↓	MM-Hal↑	Mem $^{O}$ ↑	LLaVA $^{W}$ ↑
0.2	40.2	2.11	45.42%	65.2
0.4	40.7	2.19	45.93%	64.9
0.6	40.9	2.23	45.71%	65.7
0.8	40.9	2.30	46.08%	66.1

温度越高效果越好——高温采样的响应更多样、更容易出现幻觉，与贪心解码的分布差异越大，偏好学习越有效。

多轮迭代（13B）

迭代	平均性能
基线	59.96
Iter 1	61.55
Iter 2	61.60
Iter 3	61.56

每轮迭代重新采样 17k prompt 并用更新后的模型重新生成。第一轮提升最大，后续迭代趋于饱和。

五、局限性与未来方向

受限于模型自身能力：SIMA 的偏好数据质量取决于当前 LVLM 的能力——如果模型本身无法区分两个响应的优劣，自评估就会失效；自评估的准确率（89.8%）仍低于 GPT-4V（95.6%）
无法解决训练数据偏差：自改进机制本身不能纠正视觉指令微调数据集中的固有偏差，可能无意中强化这些偏差
仅验证了 LLaVA 系列：未在更大规模（70B+）或更新架构（Qwen-VL、InternVL）上验证
评估指标侧重物体级：三个 critic 指标主要关注物体描述、关系和属性，未覆盖计数、空间位置、时间推理等更复杂的幻觉类型
单次评估：每个 prompt 仅生成两个候选响应（greedy + sampling 各一次），候选池较小，可能限制偏好数据的质量上限

六、个人思考

6.1 SIMA 与 CSR 的对比

SIMA 和 CSR 出自高度重叠的作者群体（Xiyao Wang、Yiyang Zhou、Huaxiu Yao），解决同一个问题（LVLM 模态对齐），且都基于自改进+DPO 范式，但技术路线截然不同：

维度	SIMA	CSR
偏好数据生成	greedy + temperature sampling 各一次	句子级 beam search（5 beams × 5 groups）
响应评估方式	LVLM 自己做 in-context critic	校准奖励 = CLIP Score + 语言概率
视觉信号来源	三个文本化的视觉评估指标	CLIP Score（ $λ = 0.9$ ）
是否需要额外模块	否（纯 LVLM）	需要 CLIP 模型计算图文相似度
迭代训练	单轮（3 epochs）	三轮在线迭代
评估粒度	响应级（整体比较）	句子级（逐句打分累积）

有趣的是，两者代表了"自评估"的两种范式：文本化评估（SIMA 让模型用语言推理来判断）vs 数值化评估（CSR 用 CLIP 分数量化）。SIMA 的优势在于完全自包含，不需要任何外部模型；CSR 的优势在于句子级细粒度和 CLIP 提供的客观视觉锚定。

6.2 自评估 vs 外部评估的取舍

SIMA 和 CSR 的对比揭示了一个核心权衡：

完全自评估（SIMA）：无外部依赖，但自评估的"天花板"受限于模型自身能力（89.8% 人工一致率 vs GPT-4V 的 95.6%）
外部信号辅助（CSR 的 CLIP Score）：提供了视觉锚定，但引入了额外依赖且 CLIP 对细粒度属性敏感度有限

两者的互补性值得关注：用 SIMA 的三个视觉指标引导评估方向 + CSR 的 CLIP Score 提供量化视觉锚定，可能进一步提升偏好数据质量。

6.3 三个 Critic 指标的设计洞察

SIMA 最重要的贡献可能是发现了一个简单事实：LVLM 在自评估时也会犯"忽略视觉输入"的老毛病。即使提供了 ground truth 参考，没有明确引导时 LVLM 仍会基于格式、流畅性等文本维度选择响应（78.2% 人工一致率）。三个视觉评估指标本质上是一种注意力重定向机制——通过文本化的评估准则将模型的评判焦点拉回到视觉内容上。

这一发现对 LLM-as-a-Judge 范式也有启示：在多模态评估场景中，评估 prompt 必须显式引导模型关注视觉维度，否则评估结果会系统性地偏向文本质量。

6.4 与 SENTINEL 的对比

SIMA、CSR 和 SENTINEL 三者构成了 LVLM 偏好优化的三条路线：

维度	SIMA	CSR	SENTINEL
数据来源	自生成 + 自评估	自生成 + 校准奖励	域内采样 + 检测器验证
外部依赖	无	CLIP 模型	开放词汇检测器
幻觉定位	响应级	句子级	句子级（首次出现处）
训练策略	标准 DPO	迭代 DPO	C-DPO（幻觉出现处截断）

6.5 温度解码的洞察

SIMA 发现高温（ $T = 0.8$ ）效果最好，这与直觉一致：温度越高，采样响应与贪心解码的差异越大，正负样本的区分度越高，DPO 学习越有效。这与 CSR 中 Appendix A.4 发现的"分布差异过大则 DPO 效果打折"形成有趣对比——SIMA 的正负样本都来自同一模型，即使温度较高也不会像 GPT-4 改写那样产生"过大"的分布偏移。

参考

CSR (Zhou et al., 2024)：同一作者群体的后续工作，用 CLIP Score 校准自奖励进行迭代 DPO，与 SIMA 的纯文本化自评估形成互补
DPO (Rafailov et al., 2023)：直接偏好优化，SIMA 的偏好微调基础
Self-Rewarding LLM (Yuan et al., 2024)：纯文本自奖励范式，SIMA 将 self-critic 思想扩展到多模态并引入视觉评估指标
POVID (Zhou et al., 2024)：用 GPT 注入幻觉 + 噪声图像构造负样本，SIMA 的主要对比基线
HA-DPO (Zhao et al., 2023)：用 GPT 改写 AI 响应做数据增强后 DPO 微调
LLaVA-RLHF (Sun et al., 2023)：训练额外奖励模型 + PPO 微调，代表外部标注+RL 路线
SENTINEL (Peng et al., 2025)：域内自举 + 句子级早期干预 C-DPO，从另一角度解决偏好数据构造问题

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

SIMA：通过自改进增强大视觉语言模型的视觉-语言模态对齐 ​

一句话总结 ​

一、问题与动机 ​

1.1 视觉-语言模态不对齐问题 ​

1.2 现有方法的两大瓶颈 ​

1.3 核心洞察 ​

二、预备知识 ​

2.1 LVLM 的基本形式 ​

2.2 Direct Preference Optimization (DPO) ​

三、核心方法 ​

3.1 响应自生成（Response Self-Generation） ​

3.2 上下文自评估（In-Context Self-Critic） ​

Critic Prompt 的四个组成部分 ​

Critic Prompt 结构 ​

3.3 偏好微调（Preference Tuning） ​

3.4 完整算法流程 ​

3.5 关键超参数 ​

四、实验结果 ​

4.1 幻觉基准 ​

4.2 综合基准 ​

4.3 三个视觉评估指标的重要性 ​

4.4 消融实验 ​

训练 Epoch 数 ​

解码温度 ​

多轮迭代（13B） ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 SIMA 与 CSR 的对比 ​

6.2 自评估 vs 外部评估的取舍 ​

6.3 三个 Critic 指标的设计洞察 ​

6.4 与 SENTINEL 的对比 ​

6.5 温度解码的洞察 ​

参考 ​