VACoDe：视觉增强对比解码——自适应选择最具对比性的图像增强

论文：VACoDe: Visual Augmented Contrastive Decoding
作者：Sihyeon Kim*, Boryeong Cho*, Sangmin Bae, Sumyeong Ahn, Se-Young Yun
机构：KAIST AI、Michigan State University
发布时间：2024年（ICML 2024）
论文链接：arXiv
分类标签：视觉增强 对比解码 自适应增强选择 Softmax Distance Training-Free Plug-and-Play

一句话总结

提出 VACoDe，通过 softmax 空间 L2 距离自适应选择与当前 query 最具对比性的图像增强（color/flip/crop/edge 等 7 种），用于对比解码缓解 LVLM 幻觉，无需训练或外部模型，在 MME/VQAv2/MMBench 上跨 LLaVA-1.5/InstructBLIP/Qwen-VL 三种模型一致超越单一增强和 VCD 基线。

一、问题与动机

1.1 对比解码缓解幻觉的已有思路

对比解码（Contrastive Decoding, CD）通过生成"对比输入"来放大幻觉信号，再从原始分布中减去该信号：

p_{CD} (y | v, O, q) = softmax ((1 + α) f (y | v, q) - α f (y | O (v), q))

此前方法使用单一固定增强构造对比图像：

VCD（Leng et al., 2023）：添加扩散噪声
CRG（Wan et al., 2024）：用 bounding box 遮蔽目标物体
HALC（Chen et al., 2024）：多尺度裁剪 + JSD 对比

1.2 单一增强的局限

核心问题：不同类型的问题需要不同类型的对比增强，单一增强无法覆盖所有场景。

问题类型	有效对比增强	原因
颜色相关	Color（颜色反转）	破坏颜色信息，迫使模型猜测
存在性判断	Random Crop	裁剪可能移除目标物体
位置相关	Flip（水平+垂直翻转）	改变物体的空间位置关系

例如，当问 "Where is the cat?" 时：

Flip 增强是对比性的：翻转后猫从右侧移到左侧，模型输出分布发生显著变化，CD 可有效纠正偏差
Color 增强是持久性的：颜色变化不影响位置信息，增强后的输出分布与原始相似，CD 几乎无效甚至有害

1.3 研究问题

如何在无需人工干预的情况下，自动为每个 query 选择最具对比性的图像增强，以最大化对比解码的效果？

二、核心方法

2.1 增强集合

VACoDe 使用 7 种视觉增强操作 $A = {color, flip, crop, erase, sharp, edge, noise}$ ：

增强	描述
Color	颜色反转
Flip	水平翻转 + 垂直翻转
Crop	随机裁剪图像一部分
Erase	随机擦除图像区域
Sharp	调整图像锐度
Edge	提取边缘纹理
Noise	添加扩散噪声（即 VCD 方法）

2.2 关键发现：对比性增强提升 CD，持久性增强损害 CD

论文在 MME 数据集上进行了系统验证，定义 Softmax Gain 来衡量 CD 对正确答案概率的提升：

Gain (v, q, y_{GT}, O) = p_{CD} (y_{GT} | v, O, q) - softmax (f (y_{GT} | v, q))

实验发现：

在 color 类型问题上，color 增强 Gain 最高，flip 增强 Gain 接近 0
在 existence 类型问题上，crop 增强 Gain 最高
在 position 类型问题上，flip 增强 Gain 最高

这证实了对比性增强与问题类型高度相关，需要逐样本自适应选择。

2.3 Softmax Distance 选择最具对比性的增强

核心直觉：输出分布变化最大的增强 = 最具对比性的增强。

定义 softmax 空间的 L2 距离：

D (p (v), p (O (v))) = {‖ p (v) - p (O (v)) ‖}_{2}

其中 $p (v) = softmax (f (y | v, q))$ 是原始图像的输出概率分布， $p (O (v))$ 是增强图像的输出概率分布。

验证：按 $D$ 值对增强排序后分析 Gain：

距离 $D$ 最大的增强（Top-1）平均 Gain 最高
Top-1 的 Gain 甚至高于任何单一固定增强
在每种问题类型上，被选为 Top-1 最频繁的增强恰好对应手动标注的对比性增强

距离度量消融：论文对比了 L1/L2/L3/L $_{\infty}$ /Cosine/KL/Earth Mover's 共 7 种距离度量，L1/L2/L3 表现相当且最优，KL 和 L $_{\infty}$ 效果较差。最终选择 L2。

2.4 VACoDe 算法

VACoDe 的完整流程：

增强选择阶段（仅在 $t = 1$ 时执行）：
将原始图像 $v$ 和所有 $| A |$ 种增强图像 $O_{o} (v)$ 分别输入 LVLM
计算原始分布 $p_{t}$ 和每种增强的分布 ${\tilde{p}}_{t, i}$
选择距离最大的增强： $\hat{o} = \arg max_{o \in A} D (p_{t}, {\tilde{p}}_{t, i})$
对比解码阶段（ $t \geq 2$ ）：
仅使用选定的增强 $\hat{o}$ 和原始图像做两次前向传播
计算 VACoDe 概率： $p_{VACoDe, t} = (1 + α) \cdot p_{t} - α \cdot {\tilde{p}}_{t, \hat{o}}$
候选集约束：
$V_{cand} (y_{< t}) = {y_{t} \in V : p_{t} (y_{t} | v, q, y_{< t}) \geq β \cdot max_{w} p_{t} (w | v, q, y_{< t})}$
不在候选集中的 token 概率置零
从修正后的分布中采样下一个 token

关键设计：增强选择仅在第一个 token 生成时执行一次，后续 token 复用同一增强。这大幅降低了计算开销——仅第一步需要 $| A | + 1$ 次前向传播，后续每步仅需 2 次。

2.5 Selection 策略：去除噪声增强

某些增强对特定任务始终无效，保留它们反而引入噪声干扰。VACoDe 提出基于验证集的 selection 策略：

在子数据集上统计每种增强被选为 Top-1 的次数 $c_{i}$
设定接受阈值 $τ = 0.5$ ，若 $c_{i} < τ \cdot N / M$ （ $N$ 为样本数， $M$ 为增强数），则剔除该增强
仅保留被高频选择的增强子集 $A^{'} \subseteq A$

例如在 MME 上，LLaVA-13B 经 selection 后保留 {color, edge, crop, flip} 四种增强。

2.6 超参数设置

$α = 1$ ：对比放大系数
$β = 0.1$ ：候选集可信度阈值
$T = 1, p = 1$ ：采样温度和 Top-P

三、实验结果

3.1 MME 各子类别详细结果（LLaVA-1.5 13B）

方法	增强	existence	count	position	color	posters	celebrity	scene	landmark	artwork	OCR	Total
Regular	-	182.0	125.3	110.3	154.7	128.6	123.0	153.1	131.3	108.3	111.0	1327.6
VCD	noise	185.0	122.3	125.0	151.7	137.6	133.1	151.2	139.1	110.9	98.5	1354.3
Single	color	182.0	134.0	129.3	160.0	142.9	142.2	154.6	143.4	112.6	113.5	1414.5
Single	edge	185.0	146.0	125.0	157.7	141.7	142.2	153.0	139.5	113.2	121.0	1424.2
Single	crop	187.0	110.3	138.3	147.7	149.8	146.7	156.7	146.7	105.8	103.5	1392.4
VACoDe	all	184.0	138.7	134.0	167.0	146.8	144.3	149.4	145.3	114.7	119.0	1443.1
VACoDe	selection	183.0	140.3	132.0	165.3	146.5	143.7	149.8	145.1	114.5	123.0	1443.1

关键发现：

单一增强各有所长：color 在 color 类问题最强，crop 在 existence/position 最强，edge 在 count 最强
VACoDe 在整体上超越所有单一增强，因为它能逐样本自适应选择
VACoDe 标准差（$\pm $6.8 / 9.99 ）显著低于单一增强（$ \pm$14–25），稳定性大幅提升

3.2 跨数据集 × 跨模型结果

方法	增强	MME (LV / QV / IB)	VQAv2 (LV / QV / IB)	MMBench (LV / QV / IB)
Regular	-	1327.6 / 1355.3 / 1151.5	67.5 / 75.4 / 61.8	73.7 / 64.5 / 43.8
VCD	noise	1354.3 / 1406.2 / 1208.4	71.3 / 75.5 / 66.6	74.6 / 68.5 / 48.8
VACoDe	selection	1443.1 / 1426.4 / 1256.1	72.5 / 76.3 / 68.0	75.6 / 70.0 / 50.7

LV = LLaVA-1.5 13B, QV = Qwen-VL 7B, IB = InstructBLIP 13B

VACoDe 在 3 个数据集 × 3 个模型 = 9 种设置中全面最优
vs VCD：MME 平均提升 +72.3，VQAv2 平均 +1.1%，MMBench 平均 +1.8%
selection 策略在多数设置下优于 all，验证了去除噪声增强的有效性

3.3 增强组合消融

增强组合	color	position	Total
color+crop	160.0	132.3	1420.9
color+flip	161.7	136.3	1416.5
crop+flip	150.7	133.3	1398.9
color+crop+flip	161.0	133.3	1426.3

去除 color 后 color 类性能骤降，去除 flip 后 position 类性能骤降——每种增强贡献不可替代。

3.4 模型规模消融

模型	Regular	VCD	VACoDe (all)
LLaVA-1.5 7B	1272.2	1323.4	1368.9 (+96.7)
LLaVA-1.5 13B	1327.6	1354.3	1443.1 (+115.5)
InstructBLIP 7B	1155.3	1218.9	1249.6 (+94.3)
InstructBLIP 13B	1151.5	1208.4	1248.3 (+96.8)

VACoDe 在不同模型架构和规模上均一致提升，且规模越大提升越明显。

3.5 采样策略鲁棒性

采样策略	Regular	VCD	VACoDe (all)	提升
Top-P ( $p = 0.9$ )	1352.9	1370.5	1462.7	+109.8
Top-K ( $k = 50, T = 0.7$ )	1399.3	1425.6	1456.0	+56.7
低温 ( $T = 0.7$ )	1404.0	1429.5	1454.3	+50.3
高温 ( $T = 1.5$ )	1169.7	1317.0	1389.0	+219.3

高温场景下 VACoDe 提升最大（+219），因为高温增加了输出多样性和不确定性，此时对比解码对纠正错误输出的价值更大。

3.6 Case Study

在 MMBench 位置类问题 "Which corner doesn't have any fruits?" 上：

原始预测：top-left（错误）——LVLM 对 "top-left" 存在位置偏差
Flip 增强后：空白区域从 top-right 移到 bottom-left，模型仍偏向 top-left
CD 减去 flip 分布后：top-right 概率从 0.30 升至 0.57，成功纠正

四、局限性与未来方向

4.1 增强候选集的覆盖度

VACoDe 只能从预定义的增强候选集 $A$ 中选择。如果候选集中没有对当前 query 足够对比的增强，即使选择了距离最大的也未必有效。论文使用的 7 种增强主要覆盖颜色、位置、存在性等基础维度，对更复杂的语义推理（如关系推理、常识推理）可能对比度不足。

4.2 首 token 选择的局限

增强选择仅在第一个 token 时执行一次。但不同 token 位置可能面临不同类型的幻觉风险——例如描述物体时需要 existence 相关的对比，描述颜色时需要 color 相关的对比。动态逐 token 切换增强可能进一步提升效果，但计算开销也会增加。

4.3 计算开销

第一个 token 生成时需要 $| A | + 1$ 次前向传播（默认 8 次），后续每步 2 次。相比 VCD 的恒定 2 次/步，VACoDe 的首步开销较高。对于短答案任务（如 Yes/No）影响较大，对于长文本生成影响可忽略。

五、个人思考

5.1 与项目内其他对比解码方法的对比

方法	对比信号来源	增强类型	选择策略	是否训练
VACoDe	多种视觉增强	7 种图像变换	Softmax L2 距离自适应	否
VCD	扩散噪声	单一（噪声）	固定	否
ICD	指令扰动	N/A（指令端）	固定前缀	否
HALC	多尺度裁剪	单一（裁剪）	JSD 双向选择	否
HIO	Evil LVLM	N/A（模型端）	反转 BT 训练	是（训练 Evil 模型）
AGLA	GradCAM 增强	单一（遮蔽）	固定	否

VACoDe 的核心创新在于从"用什么增强"到"如何选增强"的范式转换。VCD、ICD、HALC 等方法都使用固定的对比信号构造方式，而 VACoDe 指出对比信号的有效性是任务依赖的，并提出了一个简洁的自动选择机制。

5.2 "不同增强=不同维度的探针"视角

VACoDe 的实验结果暗示了一个更深层的洞察：每种增强本质上是对模型在特定维度上的"视觉探针"——

Color 增强探测模型是否真正依赖颜色信息
Flip 增强探测模型是否真正依赖空间位置
Crop 增强探测模型是否真正依赖目标物体的存在

当探针触发了输出分布的大幅变化时，说明模型在该维度上的判断不够鲁棒——这恰好是幻觉最可能发生的维度。VACoDe 利用这一信号来选择最有效的对比方向。

5.3 与 ICD 的互补性

VACoDe 从视觉端构造对比，ICD 从指令端构造对比。VACoDe 的增强选择机制理论上也可以扩展到指令端——例如维护一个指令扰动候选集，用类似的距离度量选择最具对比性的指令扰动。将视觉增强选择和指令扰动选择统一到同一框架中，可能是一个有价值的方向。

5.4 对后续方法的启示

VACoDe 发表于 ICML 2024，是较早系统研究"对比解码中增强选择问题"的工作。后续如 DLC（CLIP 动态校准）、VisFlow（注意力干预）等方法从不同角度解决了类似问题——即如何在推理时自适应地确定幻觉纠正的方向和强度。VACoDe 的贡献在于提出了一个清晰的实验框架来分析增强-问题类型的交互关系，这对理解 LVLM 的视觉依赖模式有启发价值。

参考

VCD（Leng et al., 2023）：视觉对比解码，用扩散噪声构造对比图像——VACoDe 的直接基线，相当于 VACoDe 中仅使用 noise 增强的特例
CRG（Wan et al., 2024）：对比区域引导，用 bounding box 遮蔽目标物体做对比——需要外部标注信息
ICD（Wang et al., 2024）：指令对比解码——从指令端而非视觉端做对比，与 VACoDe 互补
HALC（Chen et al., 2024）：自适应 FOV 对比解码——同样使用多种视觉变换但局限于裁剪操作
Contrastive Decoding（Li et al., 2023b）：对比解码理论框架——VACoDe 的候选集约束直接沿用该工作

幻觉缓解

Token 压缩

基础模型

感知增强

推理与规划

高效推理

RL 后训练

VACoDe：视觉增强对比解码——自适应选择最具对比性的图像增强 ​

一句话总结 ​

一、问题与动机 ​

1.1 对比解码缓解幻觉的已有思路 ​

1.2 单一增强的局限 ​

1.3 研究问题 ​

二、核心方法 ​

2.1 增强集合 ​

2.2 关键发现：对比性增强提升 CD，持久性增强损害 CD ​

2.3 Softmax Distance 选择最具对比性的增强 ​

2.4 VACoDe 算法 ​

2.5 Selection 策略：去除噪声增强 ​

2.6 超参数设置 ​

三、实验结果 ​

3.1 MME 各子类别详细结果（LLaVA-1.5 13B） ​

3.2 跨数据集 × 跨模型结果 ​

3.3 增强组合消融 ​

3.4 模型规模消融 ​

3.5 采样策略鲁棒性 ​

3.6 Case Study ​

四、局限性与未来方向 ​

4.1 增强候选集的覆盖度 ​

4.2 首 token 选择的局限 ​

4.3 计算开销 ​

五、个人思考 ​

5.1 与项目内其他对比解码方法的对比 ​

5.2 "不同增强=不同维度的探针"视角 ​

5.3 与 ICD 的互补性 ​

5.4 对后续方法的启示 ​

参考 ​