HIO：通过幻觉诱导优化缓解大视觉-语言模型幻觉

论文：Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization
作者：Beitao Chen, Xinyu Lyu, Lianli Gao*, Jingkuan Song, Heng Tao Shen
机构：电子科技大学未来媒体中心、UESTC 深圳高等研究院、同济大学
发布时间：2024年5月（arXiv），NeurIPS 2025 录用
🔗 arXiv
分类标签：LVLM Hallucination Contrastive Decoding Preference Optimization Bradley-Terry Model

一句话总结

提出 HIO，通过反转 Bradley-Terry 模型训练一个专门放大幻觉的"Evil LVLM"，在推理时与原始 LVLM 做对比解码精确消除幻觉 token，解决了传统视觉对比解码中全局视觉扰动无法精准诱导幻觉的根本问题，POPE Accuracy 最高提升 3.5%，CHAIR $_{I}$ 降至 2.24。

一、问题与动机

1.1 视觉对比解码的本质缺陷

视觉对比解码（VCD）的核心思想是：给原始图像 $v$ 和扰动图像 $v^{'}$ （如加高斯噪声）分别过 LVLM，用两者的 logits 差来抑制幻觉：

p_{v c d} (y | v, v^{'}, x) = softmax [(1 + α) {logit}_{θ} (y | v, x) - α {logit}_{θ} (y | v^{'}, x)]

直觉：扰动图像会让模型更容易产生幻觉，减去扰动分布就相当于"去掉幻觉成分"。

但这里有一个根本性问题：全局视觉扰动是不可控的。加噪声不仅放大了幻觉 token 的概率，也不可预测地改变了正确 token 的概率分布。结果：

问题	表现
幻觉诱导不精确	噪声可能没有放大真正的幻觉 token
引入新幻觉	对比后的分布可能产生原本不存在的幻觉
logits 差距不够大	幻觉和正确 token 之间的对比不够显著

如 Fig. 1 所示：Greedy Decoding 选出幻觉词 "Table"；VCD 加了视觉扰动后对比解码，结果选出了另一个幻觉词 "Fork"——扰动没有真正拉开幻觉与正确 token 的差距。

1.2 核心洞察

论文通过理论分析（Section 5）得出对比解码有效的必要条件：Evil 模型中，所有幻觉 token 的 logits 之和与正确 token 的 logits 之差必须超过一个与原始模型输出相关的阈值 $J$ （Eqn. 17）。

结论：与其用不可控的视觉扰动"碰运气"，不如直接训练一个模型来精准放大幻觉——让它学会什么是幻觉、什么是正确答案，然后系统性地放大前者、抑制后者。

二、预备知识

2.1 Bradley-Terry 偏好模型

给定输入 $x$ ，两个响应 $y_{w}$ （preferred）和 $y_{l}$ （dispreferred），Bradley-Terry 模型定义偏好概率：

p (y_{w} ≻ y_{l} | x) = \frac{\exp (r (x, y_{w}))}{\exp (r (x, y_{w})) + \exp (r (x, y_{l}))}

2.2 DPO：从偏好数据直接优化策略

DPO 将 RL 优化简化为分类损失：

L_{D P O} (π_{θ}; π_{r e f}) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (β \log \frac{π_{θ} (y_{w} | x)}{π_{r e f} (y_{w} | x)} - β \log \frac{π_{θ} (y_{l} | x)}{π_{r e f} (y_{l} | x)})]

标准 DPO 用于缓解幻觉：令 $y_{w}$ 为无幻觉输出、 $y_{l}$ 为含幻觉输出，训练模型偏好无幻觉生成。

但 HIO 的目标恰好相反：需要训练一个模型偏好幻觉输出，即学习放大幻觉。

三、核心方法

HIO 的整体流程分为两阶段（Fig. 2）：

训练阶段：用反转偏好优化训练一个"Evil LVLM"，使其系统性放大幻觉 token 的 logits
推理阶段：Evil LVLM 的 logits 与原始 LVLM 对比解码，精准消除幻觉

3.1 Contrary Bradley-Terry Model (CBTM)

核心思想：反转 BT 模型的偏好方向。标准 DPO 让模型偏好 $y_{w}$ （正确），CBTM 让模型偏好 $y_{l}$ （幻觉）：

p (y_{l} ≻ y_{w} | x) = σ (β \log \frac{π_{θ} (y_{l} | v, x)}{π_{r e f} (y_{l} | v, x)} - β \log \frac{π_{θ} (y_{w} | v, x)}{π_{r e f} (y_{w} | v, x)})

直觉：这等于训练模型"学坏"——看到图像后，学会生成包含幻觉的描述而非正确描述。训练数据用 Yu et al. [2023]（RLHF-V）提供的配对数据，正确和幻觉描述仅在个别词/短语上有差异。

为什么不能直接用 DPO 反转？ 因为 DPO 只优化单对偏好，无法保证满足 Eqn. (17) 所要求的多个幻觉 token 同时被放大的条件。

3.2 Amplification of Multiple Targeted Hallucination (AMTH)

CBTM 只处理单对偏好（一个幻觉 vs 一个正确），但 Eqn. (17) 要求所有幻觉 token 都被放大。因此扩展到多对偏好同时拟合：

\prod_{i = 1}^{k} p (y_{l} ≻ y_{w} | x) = \prod_{i = 1}^{k} σ (β \log \frac{π_{θ} (y_{l i} | x)}{π_{r e f} (y_{l i} | x)} - β \log \frac{π_{θ} (y_{w} | x)}{π_{r e f} (y_{w} | x)})

取负对数得损失函数：

L_{A M T H} (π_{θ}; π_{r e f}) = - E_{(x, y_{l}, y_{w}) \sim D} \sum_{i = 1}^{k} [\log σ (β \log \frac{π_{θ} (y_{l i} | v, x)}{π_{r e f} (y_{l i} | v, x)} - β \log \frac{π_{θ} (y_{w} | v, x)}{π_{r e f} (y_{w} | v, x)})]

其中 ${y_{l i}}, i \in {1, 2, \dots, k}$ 表示 $k$ 个候选幻觉输出。

多候选幻觉的获取：让模型自身生成——在幻觉词位置，取 Top-K 高置信度 token 作为负样本，然后自回归续写到句号。虽然可能错误地将部分正确 token 标为幻觉，但配对数据中的标注可以提供纠正和补充（Algorithm 1）。

3.3 Advanced Constraints for Inducing (ACI)

AMTH 的交叉熵损失存在一个问题：增大 $π_{θ} (y_{l} | v, x)$ 有两种方式：

增大 $\exp ({\hat{l}}_{k_{t}})$ （幻觉 token logit）✅ 这是我们想要的
减小 $\sum_{j} \exp ({\hat{l}}_{j})$ （总 logit 分母）❌ 这不会拉开幻觉与正确 token 的差距

为确保幻觉 token 的 logit 确实被放大，添加显式约束：

L_{H I O} (π_{θ}; π_{r e f}) = - E_{(x, y_{l}, y_{w}) \sim D} \sum_{i = 1}^{k} [\log σ (β \log \frac{π_{θ} (y_{l i} | v, x)}{π_{r e f} (y_{l i} | v, x)} - β \log \frac{π_{θ} (y_{w} | v, x)}{π_{r e f} (y_{w} | v, x)}) + γ (\frac{1}{m} \sum_{t = 1}^{m} {\hat{l}}_{k_{t}}^{{v, x, y_{< t}}} - {\hat{l}}_{i}^{{v, x, y_{< t}}})]

其中：

${\hat{l}}_{k_{t}}^{{v, x, y_{< t}}}$ 是幻觉 token 在位置 $t$ 的 logit
${\hat{l}}_{i}^{{v, x, y_{< t}}}$ 是正确 token 的 logit
$γ$ 控制约束强度

直觉：ACI 约束直接要求"Evil 模型中幻觉 token 的 logit 要比正确 token 的 logit 高"，从 logit 空间层面确保对比解码的有效性。

3.4 推理：精准对比解码

训练好 Evil LVLM $\hat{θ}$ 后，推理时用原始 LVLM $θ$ 和 Evil LVLM $\hat{θ}$ 做对比解码：

p_{H I O} (y | v, x) = softmax [(1 + α) {logit}_{θ} (y | v, x) - α {logit}_{\hat{θ}} (y | v, x)]

对比 VCD：VCD 用噪声图像 $v^{'}$ 过同一个模型 $θ$ 来近似幻觉分布；HIO 用专门训练的 Evil 模型 $\hat{θ}$ 过原始图像 $v$ 来精确生成幻觉分布。后者对幻觉的诱导是可控且精准的。

四、对比解码的理论基础

4.1 对比解码消除幻觉的必要条件

设 $L^{{v, x, y_{< t}}}$ 为原始 logits， ${\hat{L}}^{{v, x, y_{< t}}}$ 为 Evil 模型 logits，对比解码后的 logits 为：

δ^{{v, x, y_{< t}}} = (1 + α) L^{{v, x, y_{< t}}} - α {\hat{L}}^{{v, x, y_{< t}}}

无幻觉条件：对比后所有幻觉 token 的 logit 必须小于所有正确 token 的 logit：

max δ^{' {v, x, y_{< t}}} < min δ^{* {v, x, y_{< t}}}

4.2 推导关键不等式

通过展开和放缩（详见 Appendix A），上述条件可简化为：

\sum_{i = k_{1}}^{k_{m}} ({\hat{l}}_{i}^{{v, x, y_{< t}}} - {\hat{l}}_{j}^{{v, x, y_{< t}}}) > J

其中 $J = \frac{(1 + α)}{α} \sum_{i = k_{1}}^{k_{m}} (l_{i}^{{v, x, y_{< t}}} - l_{j}^{{v, x, y_{< t}}})$ 。

解读：
左侧：Evil 模型中，所有幻觉 token logits 之和减去正确 token logit 的 $m$ 倍
右侧 $J$ ：与原始模型的 logits 分布相关的常数（原始模型参数固定）
含义：Evil 模型必须让幻觉 token 和正确 token 之间保持足够大的 logit 差距
这正是 CBTM + AMTH + ACI 三个组件要联合实现的目标。

五、实验结果

5.1 实验设置

基础模型：LLaVA-1.5（Vicuna 7B）
基准测试：POPE（MSCOCO）、CHAIR（MSCOCO）、MME
对比方法：Greedy Decoding、VCD、VDD、OPERA、DoLA、HALC、Woodpecker、LURE 等

5.2 POPE 结果

Setting	Decoding	Accuracy↑	Precision	Recall	F1↑
Random	Regular	83.29	92.13	72.80	81.33
	VCD	87.73	91.42	72.80	87.16
	VDD	90.0	97.36	79.13	88.79
	HIO	90.21	93.23	86.85	89.94
Popular	Regular	81.88	88.93	72.80	80.06
	VCD	85.38	86.92	83.28	85.06
	HIO	88.1	88.96	86.83	87.84
Adversarial	Regular	78.96	83.06	72.75	77.57
	VCD	80.88	79.45	83.29	81.33
	HIO	84.32	84.28	84.33	84.34

HIO 在所有三个设置下 Accuracy 和 F1 均为最佳。相比 VCD，Accuracy 提升 2.5%/2.8%/3.5%，F1 提升 2.9%/2.8%/3.0%。

5.3 CHAIR 结果

Method	Length	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall↑
Greedy	100.6	50.0	15.4	77.1
VCD	100.4	48.6	14.9	77.3
OPERA	98.6	47.8	14.6	76.8
Truncate (length)	79.9	41.8	13.2	72.5
HIO	110.3	41.4	10.5	77.4

HIO 在生成更长文本（110.3 vs ~100）的同时，CHAIR $_{S}$ 和 CHAIR $_{I}$ 均为最低，Recall 最高。相比 VCD：CHAIR $_{S}$ 降低 7.2%，CHAIR $_{I}$ 降低 4.4%。

更详细的对比（附录 Table 5，不同基线集）：

Method	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓
Greedy	20.80	6.77
HALC	13.80	5.50
HIO	11.6	2.24

相比 HALC，CHAIR $_{S}$ 降低 2.2%，CHAIR $_{I}$ 降低 3.3%。

5.4 MME 结果

Decoding	Existence↑	Count↑	Position↑	Color↑	Total↑
Regular	175.67	124.67	114.00	151.00	565.33
VCD	184.66	138.33	128.67	153.00	604.66
VDD	190.0	143.3	145.0	165.0	643.3
HIO	190.0	160.0	133.3	170.0	653.3

幻觉子集总分 653.3，超越 VCD 达 48.6 分。Count 维度提升最显著（+21.7）。

完整 MME Perception（10 个子任务）总分：1524.7 vs VCD 1363.96（+160.7）。

5.5 消融实验

Exp	CBTM	AMTH	ACI	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall↑
1	-	-	-	33.4	9.07	81.1
2	✓	-	-	18.6	5.08	79.9
3	✓	✓	-	14.2	3.06	80.5
4	✓	✓	✓	11.2	2.02	81.3

CBTM 是最关键组件：CHAIR $_{S}$ 从 33.4 降至 18.6（-44%），证明反转 BT 模型的有效性
AMTH 进一步降至 14.2（-24%），多幻觉 token 同时放大显著提升效果
ACI 最终降至 11.2（-21%），同时 Recall 从 79.9 恢复到 81.3（超越 baseline 的 81.1），说明 logit 约束不仅不损害识别质量，反而有助于精准区分幻觉与正确 token

六、局限性与未来方向

必要非充分条件：Eqn. (17) 仅建立了对比解码有效的必要条件，更强的充分条件有待探索
需要训练 Evil LVLM：不像 VCD/OPERA 等 training-free 方法，HIO 需要额外训练，增加了计算成本
推理开销翻倍：推理时需要同时运行原始 LVLM 和 Evil LVLM 两次前向传播
仅验证于 LLaVA-1.5 7B：更大规模或不同架构的 LVLM 上的效果有待验证

未来方向：探索 training-free 的幻觉诱导方法，降低解码计算成本。

七、个人思考

7.1 "以毒攻毒"的巧妙范式

HIO 的思路可以概括为"以毒攻毒"：

传统方法（VCD、IBD 等）：用全局扰动（噪声、模糊）来"碰运气"诱导幻觉，但扰动是不可控的
HIO：用偏好学习直接训练一个"幻觉专家"，让诱导过程变得可控且精准

这与项目中其他对比解码方法形成鲜明对比：

HALC 用局部视觉上下文采样来控制对比方向
ICD 用指令扰动来诱导幻觉
HIO 则从根本上用偏好学习来构造最优的对比分布

7.2 与 DPO 缓解幻觉的镜像关系

有趣的是，HIO 和标准 DPO 缓解幻觉（如 CSR、SENTINEL）形成了一对"镜像方法"：

维度	DPO 缓解幻觉	HIO
训练目标	让模型偏好无幻觉输出	让模型偏好有幻觉输出
训练对象	原始模型	Evil 模型副本
推理方式	直接使用训练后模型	训练后模型与原始模型对比解码
通用能力影响	可能损害通用能力	不修改原始模型，通用能力不受影响

HIO 的一个潜在优势是不修改原始模型权重——原始 LVLM 保持不变，所有缓解效果来自推理时的对比解码，这保护了通用能力。

7.3 理论推导的价值

Section 5 的理论分析虽然最终只得到必要条件，但推导过程揭示了一个重要洞察：对比解码的有效性取决于 Evil 模型中幻觉和正确 token 的 logit 差距是否超过原始模型的 logit 差距乘以一个系数。这解释了为什么全局视觉扰动（VCD）有时有效有时无效——扰动是否碰巧满足了这个条件是随机的。

7.4 推理成本的权衡

HIO 的主要实际限制是推理时需要两个模型的前向传播。在实际部署中，这意味着 2× 的计算开销和显存占用。相比之下，training-free 方法如 HIME（零推理开销）和 MemVR（1.04× 延迟）更具部署优势。但 HIO 的效果优势也是显著的——CHAIR $_{I}$ 2.24 远低于其他所有方法。

参考

[VCD] Leng et al. Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding, arXiv 2023
[DPO] Rafailov et al. Direct Preference Optimization: Your Language Model Is Secretly a Reward Model, NeurIPS 2024
[RLHF-V] Yu et al. RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-Grained Correctional Human Feedback, arXiv 2023
[OPERA] Huang et al. OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation, arXiv 2023
[HALC] Chen et al. HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding, ICML 2024

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

HIO：通过幻觉诱导优化缓解大视觉-语言模型幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 视觉对比解码的本质缺陷 ​

1.2 核心洞察 ​

二、预备知识 ​

2.1 Bradley-Terry 偏好模型 ​

2.2 DPO：从偏好数据直接优化策略 ​

三、核心方法 ​

3.1 Contrary Bradley-Terry Model (CBTM) ​

3.2 Amplification of Multiple Targeted Hallucination (AMTH) ​

3.3 Advanced Constraints for Inducing (ACI) ​

3.4 推理：精准对比解码 ​

四、对比解码的理论基础 ​

4.1 对比解码消除幻觉的必要条件 ​

4.2 推导关键不等式 ​

五、实验结果 ​

5.1 实验设置 ​

5.2 POPE 结果 ​

5.3 CHAIR 结果 ​

5.4 MME 结果 ​

5.5 消融实验 ​

六、局限性与未来方向 ​

七、个人思考 ​

7.1 "以毒攻毒"的巧妙范式 ​

7.2 与 DPO 缓解幻觉的镜像关系 ​

7.3 理论推导的价值 ​

7.4 推理成本的权衡 ​

参考 ​