VACoDe:视觉增强对比解码——自适应选择最具对比性的图像增强
论文:VACoDe: Visual Augmented Contrastive Decoding
作者:Sihyeon Kim*, Boryeong Cho*, Sangmin Bae, Sumyeong Ahn, Se-Young Yun
机构:KAIST AI、Michigan State University
发布时间:2024年(ICML 2024)
论文链接:arXiv
分类标签:
视觉增强对比解码自适应增强选择Softmax DistanceTraining-FreePlug-and-Play
一句话总结
提出 VACoDe,通过 softmax 空间 L2 距离自适应选择与当前 query 最具对比性的图像增强(color/flip/crop/edge 等 7 种),用于对比解码缓解 LVLM 幻觉,无需训练或外部模型,在 MME/VQAv2/MMBench 上跨 LLaVA-1.5/InstructBLIP/Qwen-VL 三种模型一致超越单一增强和 VCD 基线。
一、问题与动机
1.1 对比解码缓解幻觉的已有思路
对比解码(Contrastive Decoding, CD)通过生成"对比输入"来放大幻觉信号,再从原始分布中减去该信号:
此前方法使用单一固定增强构造对比图像:
- VCD(Leng et al., 2023):添加扩散噪声
- CRG(Wan et al., 2024):用 bounding box 遮蔽目标物体
- HALC(Chen et al., 2024):多尺度裁剪 + JSD 对比
1.2 单一增强的局限
核心问题:不同类型的问题需要不同类型的对比增强,单一增强无法覆盖所有场景。
| 问题类型 | 有效对比增强 | 原因 |
|---|---|---|
| 颜色相关 | Color(颜色反转) | 破坏颜色信息,迫使模型猜测 |
| 存在性判断 | Random Crop | 裁剪可能移除目标物体 |
| 位置相关 | Flip(水平+垂直翻转) | 改变物体的空间位置关系 |
例如,当问 "Where is the cat?" 时:
- Flip 增强是对比性的:翻转后猫从右侧移到左侧,模型输出分布发生显著变化,CD 可有效纠正偏差
- Color 增强是持久性的:颜色变化不影响位置信息,增强后的输出分布与原始相似,CD 几乎无效甚至有害
1.3 研究问题
如何在无需人工干预的情况下,自动为每个 query 选择最具对比性的图像增强,以最大化对比解码的效果?
二、核心方法
2.1 增强集合
VACoDe 使用 7 种视觉增强操作
| 增强 | 描述 |
|---|---|
| Color | 颜色反转 |
| Flip | 水平翻转 + 垂直翻转 |
| Crop | 随机裁剪图像一部分 |
| Erase | 随机擦除图像区域 |
| Sharp | 调整图像锐度 |
| Edge | 提取边缘纹理 |
| Noise | 添加扩散噪声(即 VCD 方法) |
2.2 关键发现:对比性增强提升 CD,持久性增强损害 CD
论文在 MME 数据集上进行了系统验证,定义 Softmax Gain 来衡量 CD 对正确答案概率的提升:
实验发现:
- 在 color 类型问题上,color 增强 Gain 最高,flip 增强 Gain 接近 0
- 在 existence 类型问题上,crop 增强 Gain 最高
- 在 position 类型问题上,flip 增强 Gain 最高
这证实了对比性增强与问题类型高度相关,需要逐样本自适应选择。
2.3 Softmax Distance 选择最具对比性的增强
核心直觉:输出分布变化最大的增强 = 最具对比性的增强。
定义 softmax 空间的 L2 距离:
其中
验证:按
- 距离
最大的增强(Top-1)平均 Gain 最高 - Top-1 的 Gain 甚至高于任何单一固定增强
- 在每种问题类型上,被选为 Top-1 最频繁的增强恰好对应手动标注的对比性增强
距离度量消融:论文对比了 L1/L2/L3/L
2.4 VACoDe 算法
VACoDe 的完整流程:
- 增强选择阶段(仅在
时执行):
- 将原始图像
和所有 种增强图像 分别输入 LVLM - 计算原始分布
和每种增强的分布 - 选择距离最大的增强:
- 对比解码阶段(
):
- 仅使用选定的增强
和原始图像做两次前向传播 - 计算 VACoDe 概率:
- 候选集约束:
- 不在候选集中的 token 概率置零
- 从修正后的分布中采样下一个 token
关键设计:增强选择仅在第一个 token 生成时执行一次,后续 token 复用同一增强。这大幅降低了计算开销——仅第一步需要
2.5 Selection 策略:去除噪声增强
某些增强对特定任务始终无效,保留它们反而引入噪声干扰。VACoDe 提出基于验证集的 selection 策略:
- 在子数据集上统计每种增强被选为 Top-1 的次数
- 设定接受阈值
,若 ( 为样本数, 为增强数),则剔除该增强 - 仅保留被高频选择的增强子集
例如在 MME 上,LLaVA-13B 经 selection 后保留 {color, edge, crop, flip} 四种增强。
2.6 超参数设置
:对比放大系数 :候选集可信度阈值 :采样温度和 Top-P
三、实验结果
3.1 MME 各子类别详细结果(LLaVA-1.5 13B)
| 方法 | 增强 | existence | count | position | color | posters | celebrity | scene | landmark | artwork | OCR | Total |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Regular | - | 182.0 | 125.3 | 110.3 | 154.7 | 128.6 | 123.0 | 153.1 | 131.3 | 108.3 | 111.0 | 1327.6 |
| VCD | noise | 185.0 | 122.3 | 125.0 | 151.7 | 137.6 | 133.1 | 151.2 | 139.1 | 110.9 | 98.5 | 1354.3 |
| Single | color | 182.0 | 134.0 | 129.3 | 160.0 | 142.9 | 142.2 | 154.6 | 143.4 | 112.6 | 113.5 | 1414.5 |
| Single | edge | 185.0 | 146.0 | 125.0 | 157.7 | 141.7 | 142.2 | 153.0 | 139.5 | 113.2 | 121.0 | 1424.2 |
| Single | crop | 187.0 | 110.3 | 138.3 | 147.7 | 149.8 | 146.7 | 156.7 | 146.7 | 105.8 | 103.5 | 1392.4 |
| VACoDe | all | 184.0 | 138.7 | 134.0 | 167.0 | 146.8 | 144.3 | 149.4 | 145.3 | 114.7 | 119.0 | 1443.1 |
| VACoDe | selection | 183.0 | 140.3 | 132.0 | 165.3 | 146.5 | 143.7 | 149.8 | 145.1 | 114.5 | 123.0 | 1443.1 |
关键发现:
- 单一增强各有所长:color 在 color 类问题最强,crop 在 existence/position 最强,edge 在 count 最强
- VACoDe 在整体上超越所有单一增强,因为它能逐样本自适应选择
- VACoDe 标准差($\pm
\pm$14–25),稳定性大幅提升
3.2 跨数据集 × 跨模型结果
| 方法 | 增强 | MME (LV / QV / IB) | VQAv2 (LV / QV / IB) | MMBench (LV / QV / IB) |
|---|---|---|---|---|
| Regular | - | 1327.6 / 1355.3 / 1151.5 | 67.5 / 75.4 / 61.8 | 73.7 / 64.5 / 43.8 |
| VCD | noise | 1354.3 / 1406.2 / 1208.4 | 71.3 / 75.5 / 66.6 | 74.6 / 68.5 / 48.8 |
| VACoDe | selection | 1443.1 / 1426.4 / 1256.1 | 72.5 / 76.3 / 68.0 | 75.6 / 70.0 / 50.7 |
LV = LLaVA-1.5 13B, QV = Qwen-VL 7B, IB = InstructBLIP 13B
- VACoDe 在 3 个数据集 × 3 个模型 = 9 种设置中全面最优
- vs VCD:MME 平均提升 +72.3,VQAv2 平均 +1.1%,MMBench 平均 +1.8%
- selection 策略在多数设置下优于 all,验证了去除噪声增强的有效性
3.3 增强组合消融
| 增强组合 | color | position | Total |
|---|---|---|---|
| color+crop | 160.0 | 132.3 | 1420.9 |
| color+flip | 161.7 | 136.3 | 1416.5 |
| crop+flip | 150.7 | 133.3 | 1398.9 |
| color+crop+flip | 161.0 | 133.3 | 1426.3 |
去除 color 后 color 类性能骤降,去除 flip 后 position 类性能骤降——每种增强贡献不可替代。
3.4 模型规模消融
| 模型 | Regular | VCD | VACoDe (all) |
|---|---|---|---|
| LLaVA-1.5 7B | 1272.2 | 1323.4 | 1368.9 (+96.7) |
| LLaVA-1.5 13B | 1327.6 | 1354.3 | 1443.1 (+115.5) |
| InstructBLIP 7B | 1155.3 | 1218.9 | 1249.6 (+94.3) |
| InstructBLIP 13B | 1151.5 | 1208.4 | 1248.3 (+96.8) |
VACoDe 在不同模型架构和规模上均一致提升,且规模越大提升越明显。
3.5 采样策略鲁棒性
| 采样策略 | Regular | VCD | VACoDe (all) | 提升 |
|---|---|---|---|---|
| Top-P ( | 1352.9 | 1370.5 | 1462.7 | +109.8 |
| Top-K ( | 1399.3 | 1425.6 | 1456.0 | +56.7 |
| 低温 ( | 1404.0 | 1429.5 | 1454.3 | +50.3 |
| 高温 ( | 1169.7 | 1317.0 | 1389.0 | +219.3 |
高温场景下 VACoDe 提升最大(+219),因为高温增加了输出多样性和不确定性,此时对比解码对纠正错误输出的价值更大。
3.6 Case Study
在 MMBench 位置类问题 "Which corner doesn't have any fruits?" 上:
- 原始预测:top-left(错误)——LVLM 对 "top-left" 存在位置偏差
- Flip 增强后:空白区域从 top-right 移到 bottom-left,模型仍偏向 top-left
- CD 减去 flip 分布后:top-right 概率从 0.30 升至 0.57,成功纠正
四、局限性与未来方向
4.1 增强候选集的覆盖度
VACoDe 只能从预定义的增强候选集
4.2 首 token 选择的局限
增强选择仅在第一个 token 时执行一次。但不同 token 位置可能面临不同类型的幻觉风险——例如描述物体时需要 existence 相关的对比,描述颜色时需要 color 相关的对比。动态逐 token 切换增强可能进一步提升效果,但计算开销也会增加。
4.3 计算开销
第一个 token 生成时需要
五、个人思考
5.1 与项目内其他对比解码方法的对比
| 方法 | 对比信号来源 | 增强类型 | 选择策略 | 是否训练 |
|---|---|---|---|---|
| VACoDe | 多种视觉增强 | 7 种图像变换 | Softmax L2 距离自适应 | 否 |
| VCD | 扩散噪声 | 单一(噪声) | 固定 | 否 |
| ICD | 指令扰动 | N/A(指令端) | 固定前缀 | 否 |
| HALC | 多尺度裁剪 | 单一(裁剪) | JSD 双向选择 | 否 |
| HIO | Evil LVLM | N/A(模型端) | 反转 BT 训练 | 是(训练 Evil 模型) |
| AGLA | GradCAM 增强 | 单一(遮蔽) | 固定 | 否 |
VACoDe 的核心创新在于从"用什么增强"到"如何选增强"的范式转换。VCD、ICD、HALC 等方法都使用固定的对比信号构造方式,而 VACoDe 指出对比信号的有效性是任务依赖的,并提出了一个简洁的自动选择机制。
5.2 "不同增强=不同维度的探针"视角
VACoDe 的实验结果暗示了一个更深层的洞察:每种增强本质上是对模型在特定维度上的"视觉探针"——
- Color 增强探测模型是否真正依赖颜色信息
- Flip 增强探测模型是否真正依赖空间位置
- Crop 增强探测模型是否真正依赖目标物体的存在
当探针触发了输出分布的大幅变化时,说明模型在该维度上的判断不够鲁棒——这恰好是幻觉最可能发生的维度。VACoDe 利用这一信号来选择最有效的对比方向。
5.3 与 ICD 的互补性
VACoDe 从视觉端构造对比,ICD 从指令端构造对比。VACoDe 的增强选择机制理论上也可以扩展到指令端——例如维护一个指令扰动候选集,用类似的距离度量选择最具对比性的指令扰动。将视觉增强选择和指令扰动选择统一到同一框架中,可能是一个有价值的方向。
5.4 对后续方法的启示
VACoDe 发表于 ICML 2024,是较早系统研究"对比解码中增强选择问题"的工作。后续如 DLC(CLIP 动态校准)、VisFlow(注意力干预)等方法从不同角度解决了类似问题——即如何在推理时自适应地确定幻觉纠正的方向和强度。VACoDe 的贡献在于提出了一个清晰的实验框架来分析增强-问题类型的交互关系,这对理解 LVLM 的视觉依赖模式有启发价值。
参考
- VCD(Leng et al., 2023):视觉对比解码,用扩散噪声构造对比图像——VACoDe 的直接基线,相当于 VACoDe 中仅使用 noise 增强的特例
- CRG(Wan et al., 2024):对比区域引导,用 bounding box 遮蔽目标物体做对比——需要外部标注信息
- ICD(Wang et al., 2024):指令对比解码——从指令端而非视觉端做对比,与 VACoDe 互补
- HALC(Chen et al., 2024):自适应 FOV 对比解码——同样使用多种视觉变换但局限于裁剪操作
- Contrastive Decoding(Li et al., 2023b):对比解码理论框架——VACoDe 的候选集约束直接沿用该工作