Skip to content

VACoDe:视觉增强对比解码——自适应选择最具对比性的图像增强

论文VACoDe: Visual Augmented Contrastive Decoding

作者:Sihyeon Kim*, Boryeong Cho*, Sangmin Bae, Sumyeong Ahn, Se-Young Yun

机构:KAIST AI、Michigan State University

发布时间:2024年(ICML 2024

论文链接arXiv

分类标签视觉增强 对比解码 自适应增强选择 Softmax Distance Training-Free Plug-and-Play


一句话总结

提出 VACoDe,通过 softmax 空间 L2 距离自适应选择与当前 query 最具对比性的图像增强(color/flip/crop/edge 等 7 种),用于对比解码缓解 LVLM 幻觉,无需训练或外部模型,在 MME/VQAv2/MMBench 上跨 LLaVA-1.5/InstructBLIP/Qwen-VL 三种模型一致超越单一增强和 VCD 基线。


一、问题与动机

1.1 对比解码缓解幻觉的已有思路

对比解码(Contrastive Decoding, CD)通过生成"对比输入"来放大幻觉信号,再从原始分布中减去该信号:

pCD(y|v,O,q)=softmax((1+α)f(y|v,q)αf(y|O(v),q))

此前方法使用单一固定增强构造对比图像:

  • VCD(Leng et al., 2023):添加扩散噪声
  • CRG(Wan et al., 2024):用 bounding box 遮蔽目标物体
  • HALC(Chen et al., 2024):多尺度裁剪 + JSD 对比

1.2 单一增强的局限

核心问题:不同类型的问题需要不同类型的对比增强,单一增强无法覆盖所有场景。

问题类型有效对比增强原因
颜色相关Color(颜色反转)破坏颜色信息,迫使模型猜测
存在性判断Random Crop裁剪可能移除目标物体
位置相关Flip(水平+垂直翻转)改变物体的空间位置关系

例如,当问 "Where is the cat?" 时:

  • Flip 增强是对比性的:翻转后猫从右侧移到左侧,模型输出分布发生显著变化,CD 可有效纠正偏差
  • Color 增强是持久性的:颜色变化不影响位置信息,增强后的输出分布与原始相似,CD 几乎无效甚至有害

1.3 研究问题

如何在无需人工干预的情况下,自动为每个 query 选择最具对比性的图像增强,以最大化对比解码的效果?


二、核心方法

2.1 增强集合

VACoDe 使用 7 种视觉增强操作 A={color, flip, crop, erase, sharp, edge, noise}

增强描述
Color颜色反转
Flip水平翻转 + 垂直翻转
Crop随机裁剪图像一部分
Erase随机擦除图像区域
Sharp调整图像锐度
Edge提取边缘纹理
Noise添加扩散噪声(即 VCD 方法)

2.2 关键发现:对比性增强提升 CD,持久性增强损害 CD

论文在 MME 数据集上进行了系统验证,定义 Softmax Gain 来衡量 CD 对正确答案概率的提升:

Gain(v,q,yGT,O)=pCD(yGT|v,O,q)softmax(f(yGT|v,q))

实验发现:

  • 在 color 类型问题上,color 增强 Gain 最高,flip 增强 Gain 接近 0
  • 在 existence 类型问题上,crop 增强 Gain 最高
  • 在 position 类型问题上,flip 增强 Gain 最高

这证实了对比性增强与问题类型高度相关,需要逐样本自适应选择。

2.3 Softmax Distance 选择最具对比性的增强

核心直觉:输出分布变化最大的增强 = 最具对比性的增强。

定义 softmax 空间的 L2 距离:

D(p(v),p(O(v)))=p(v)p(O(v))2

其中 p(v)=softmax(f(y|v,q)) 是原始图像的输出概率分布,p(O(v)) 是增强图像的输出概率分布。

验证:按 D 值对增强排序后分析 Gain:

  • 距离 D 最大的增强(Top-1)平均 Gain 最高
  • Top-1 的 Gain 甚至高于任何单一固定增强
  • 在每种问题类型上,被选为 Top-1 最频繁的增强恰好对应手动标注的对比性增强

距离度量消融:论文对比了 L1/L2/L3/L/Cosine/KL/Earth Mover's 共 7 种距离度量,L1/L2/L3 表现相当且最优,KL 和 L 效果较差。最终选择 L2。

2.4 VACoDe 算法

VACoDe 的完整流程:

  1. 增强选择阶段(仅在 t=1 时执行):
    • 将原始图像 v 和所有 |A| 种增强图像 Oo(v) 分别输入 LVLM
    • 计算原始分布 pt 和每种增强的分布 p~t,i
    • 选择距离最大的增强:o^=argmaxoAD(pt,p~t,i)
  2. 对比解码阶段t2):
    • 仅使用选定的增强 o^ 和原始图像做两次前向传播
    • 计算 VACoDe 概率:pVACoDe,t=(1+α)ptαp~t,o^
  3. 候选集约束
    • Vcand(y<t)={ytV:pt(yt|v,q,y<t)βmaxwpt(w|v,q,y<t)}
    • 不在候选集中的 token 概率置零
  4. 从修正后的分布中采样下一个 token

关键设计:增强选择仅在第一个 token 生成时执行一次,后续 token 复用同一增强。这大幅降低了计算开销——仅第一步需要 |A|+1 次前向传播,后续每步仅需 2 次。

2.5 Selection 策略:去除噪声增强

某些增强对特定任务始终无效,保留它们反而引入噪声干扰。VACoDe 提出基于验证集的 selection 策略:

  • 在子数据集上统计每种增强被选为 Top-1 的次数 ci
  • 设定接受阈值 τ=0.5,若 ci<τN/MN 为样本数,M 为增强数),则剔除该增强
  • 仅保留被高频选择的增强子集 AA

例如在 MME 上,LLaVA-13B 经 selection 后保留 {color, edge, crop, flip} 四种增强。

2.6 超参数设置

  • α=1:对比放大系数
  • β=0.1:候选集可信度阈值
  • T=1,p=1:采样温度和 Top-P

三、实验结果

3.1 MME 各子类别详细结果(LLaVA-1.5 13B)

方法增强existencecountpositioncolorposterscelebrityscenelandmarkartworkOCRTotal
Regular-182.0125.3110.3154.7128.6123.0153.1131.3108.3111.01327.6
VCDnoise185.0122.3125.0151.7137.6133.1151.2139.1110.998.51354.3
Singlecolor182.0134.0129.3160.0142.9142.2154.6143.4112.6113.51414.5
Singleedge185.0146.0125.0157.7141.7142.2153.0139.5113.2121.01424.2
Singlecrop187.0110.3138.3147.7149.8146.7156.7146.7105.8103.51392.4
VACoDeall184.0138.7134.0167.0146.8144.3149.4145.3114.7119.01443.1
VACoDeselection183.0140.3132.0165.3146.5143.7149.8145.1114.5123.01443.1

关键发现

  • 单一增强各有所长:color 在 color 类问题最强,crop 在 existence/position 最强,edge 在 count 最强
  • VACoDe 在整体上超越所有单一增强,因为它能逐样本自适应选择
  • VACoDe 标准差($\pm6.8/9.99\pm$14–25),稳定性大幅提升

3.2 跨数据集 × 跨模型结果

方法增强MME (LV / QV / IB)VQAv2 (LV / QV / IB)MMBench (LV / QV / IB)
Regular-1327.6 / 1355.3 / 1151.567.5 / 75.4 / 61.873.7 / 64.5 / 43.8
VCDnoise1354.3 / 1406.2 / 1208.471.3 / 75.5 / 66.674.6 / 68.5 / 48.8
VACoDeselection1443.1 / 1426.4 / 1256.172.5 / 76.3 / 68.075.6 / 70.0 / 50.7

LV = LLaVA-1.5 13B, QV = Qwen-VL 7B, IB = InstructBLIP 13B

  • VACoDe 在 3 个数据集 × 3 个模型 = 9 种设置中全面最优
  • vs VCD:MME 平均提升 +72.3,VQAv2 平均 +1.1%,MMBench 平均 +1.8%
  • selection 策略在多数设置下优于 all,验证了去除噪声增强的有效性

3.3 增强组合消融

增强组合colorpositionTotal
color+crop160.0132.31420.9
color+flip161.7136.31416.5
crop+flip150.7133.31398.9
color+crop+flip161.0133.31426.3

去除 color 后 color 类性能骤降,去除 flip 后 position 类性能骤降——每种增强贡献不可替代。

3.4 模型规模消融

模型RegularVCDVACoDe (all)
LLaVA-1.5 7B1272.21323.41368.9 (+96.7)
LLaVA-1.5 13B1327.61354.31443.1 (+115.5)
InstructBLIP 7B1155.31218.91249.6 (+94.3)
InstructBLIP 13B1151.51208.41248.3 (+96.8)

VACoDe 在不同模型架构和规模上均一致提升,且规模越大提升越明显

3.5 采样策略鲁棒性

采样策略RegularVCDVACoDe (all)提升
Top-P (p=0.9)1352.91370.51462.7+109.8
Top-K (k=50,T=0.7)1399.31425.61456.0+56.7
低温 (T=0.7)1404.01429.51454.3+50.3
高温 (T=1.5)1169.71317.01389.0+219.3

高温场景下 VACoDe 提升最大(+219),因为高温增加了输出多样性和不确定性,此时对比解码对纠正错误输出的价值更大。

3.6 Case Study

在 MMBench 位置类问题 "Which corner doesn't have any fruits?" 上:

  • 原始预测:top-left(错误)——LVLM 对 "top-left" 存在位置偏差
  • Flip 增强后:空白区域从 top-right 移到 bottom-left,模型仍偏向 top-left
  • CD 减去 flip 分布后:top-right 概率从 0.30 升至 0.57,成功纠正

四、局限性与未来方向

4.1 增强候选集的覆盖度

VACoDe 只能从预定义的增强候选集 A 中选择。如果候选集中没有对当前 query 足够对比的增强,即使选择了距离最大的也未必有效。论文使用的 7 种增强主要覆盖颜色、位置、存在性等基础维度,对更复杂的语义推理(如关系推理、常识推理)可能对比度不足。

4.2 首 token 选择的局限

增强选择仅在第一个 token 时执行一次。但不同 token 位置可能面临不同类型的幻觉风险——例如描述物体时需要 existence 相关的对比,描述颜色时需要 color 相关的对比。动态逐 token 切换增强可能进一步提升效果,但计算开销也会增加。

4.3 计算开销

第一个 token 生成时需要 |A|+1 次前向传播(默认 8 次),后续每步 2 次。相比 VCD 的恒定 2 次/步,VACoDe 的首步开销较高。对于短答案任务(如 Yes/No)影响较大,对于长文本生成影响可忽略。


五、个人思考

5.1 与项目内其他对比解码方法的对比

方法对比信号来源增强类型选择策略是否训练
VACoDe多种视觉增强7 种图像变换Softmax L2 距离自适应
VCD扩散噪声单一(噪声)固定
ICD指令扰动N/A(指令端)固定前缀
HALC多尺度裁剪单一(裁剪)JSD 双向选择
HIOEvil LVLMN/A(模型端)反转 BT 训练是(训练 Evil 模型)
AGLAGradCAM 增强单一(遮蔽)固定

VACoDe 的核心创新在于从"用什么增强"到"如何选增强"的范式转换。VCD、ICD、HALC 等方法都使用固定的对比信号构造方式,而 VACoDe 指出对比信号的有效性是任务依赖的,并提出了一个简洁的自动选择机制。

5.2 "不同增强=不同维度的探针"视角

VACoDe 的实验结果暗示了一个更深层的洞察:每种增强本质上是对模型在特定维度上的"视觉探针"——

  • Color 增强探测模型是否真正依赖颜色信息
  • Flip 增强探测模型是否真正依赖空间位置
  • Crop 增强探测模型是否真正依赖目标物体的存在

当探针触发了输出分布的大幅变化时,说明模型在该维度上的判断不够鲁棒——这恰好是幻觉最可能发生的维度。VACoDe 利用这一信号来选择最有效的对比方向。

5.3 与 ICD 的互补性

VACoDe 从视觉端构造对比,ICD 从指令端构造对比。VACoDe 的增强选择机制理论上也可以扩展到指令端——例如维护一个指令扰动候选集,用类似的距离度量选择最具对比性的指令扰动。将视觉增强选择和指令扰动选择统一到同一框架中,可能是一个有价值的方向。

5.4 对后续方法的启示

VACoDe 发表于 ICML 2024,是较早系统研究"对比解码中增强选择问题"的工作。后续如 DLC(CLIP 动态校准)、VisFlow(注意力干预)等方法从不同角度解决了类似问题——即如何在推理时自适应地确定幻觉纠正的方向和强度。VACoDe 的贡献在于提出了一个清晰的实验框架来分析增强-问题类型的交互关系,这对理解 LVLM 的视觉依赖模式有启发价值。


参考

  • VCD(Leng et al., 2023):视觉对比解码,用扩散噪声构造对比图像——VACoDe 的直接基线,相当于 VACoDe 中仅使用 noise 增强的特例
  • CRG(Wan et al., 2024):对比区域引导,用 bounding box 遮蔽目标物体做对比——需要外部标注信息
  • ICD(Wang et al., 2024):指令对比解码——从指令端而非视觉端做对比,与 VACoDe 互补
  • HALC(Chen et al., 2024):自适应 FOV 对比解码——同样使用多种视觉变换但局限于裁剪操作
  • Contrastive Decoding(Li et al., 2023b):对比解码理论框架——VACoDe 的候选集约束直接沿用该工作