HIME：基于幻觉不敏感度的层自适应模型编辑——消除 LVLM 中的对象幻觉

论文：HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing
作者：Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian, Zhe Wang, Sara Khalifa, Kewen Wang
机构：Griffith University, CSIRO Data61, Macquarie University, Queensland University of Technology
发布时间：2026年2月
论文链接：arXiv
分类标签：LVLM Object Hallucination Model Editing Training-Free

一句话总结

提出 Hallucination Insensitivity Score (HIS) 量化每层 decoder 对幻觉的敏感度，然后用层自适应加权投影编辑 MLP 权重，无需训练/额外参数/推理开销即可平均降低 61.8% 的对象幻觉。

一、问题与动机

1.1 LVLM 的对象幻觉问题

大视觉-语言模型（LVLM）如 LLaVA-1.5、MiniGPT-4、mPLUG-Owl2 等在多模态理解上表现出色，但存在严重的对象幻觉（Object Hallucination） 问题：模型会描述图像中不存在的对象或赋予错误的属性。

例如，给一张"棕色大狗坐在床上"的图片，LLaVA-1.5 会幻觉出 "chair" 和 "couch"——这些是与 "bed" 频繁共现的语言先验，并非视觉内容中实际存在的物体。这种跨模态错位（cross-modal misalignment）严重影响了 LVLM 在安全关键场景中的可信度。

1.2 现有方法的不足

现有缓解方法大致分为三类，各有缺陷：

类别	代表方法	问题
微调	RLHF-V, DPO	计算成本高，需要精心策划的监督数据
对比解码	VCD, DoLa, OPERA	推理时引入额外生成路径，增加延迟和计算开销
权重编辑	Nullu	固定权重编辑，对所有层施加同等强度的修改

HIME 重点针对第三类方法的缺陷。Nullu 方法虽然有效地通过零空间投影移除了幻觉方向，但它对所有层施加同等强度的编辑，产生了知识蒸馏（knowledge distortion） 的副作用：在移除幻觉对象 "chair" 的同时，也抑制了实际存在的对象 "bed"，因为这两者在预训练知识中高度关联。

1.3 核心问题

每一层到底需要多大程度的干预，才能在抑制幻觉的同时保留预训练知识？

HIME 的发现是：幻觉并非均匀分布在所有 decoder 层中，而是呈现强烈的深度依赖模式。某些层对幻觉高度敏感，某些层则天然具有鲁棒性。因此，应该对不同层施加不同强度的干预。

二、预备知识

2.1 LVLM 的前向传播

LVLM 的输入由视觉和文本两部分拼接而成：

视觉 Token： 图像 $I^{(i)} \in R^{H \times W \times C}$ 经视觉编码器（如 ViT、CLIP）提取特征，再通过视觉-语言对齐模块（如 Q-Former 或线性投影）映射到语言嵌入空间：

X^{(i)} = [x_{0}^{(i)}, x_{1}^{(i)}, \dots, x_{N - 1}^{(i)}], x_{n}^{(i)} \in R^{d}

文本 Token： 查询文本分词后得到：

T^{(i)} = [t_{0}^{(i)}, t_{1}^{(i)}, \dots, t_{M - 1}^{(i)}], t_{m}^{(i)} \in R^{d}

拼接输入： $[X^{(i)}, T^{(i)}] \in R^{J \times d}$ ，其中 $J = N + M$ 。

经过 $L$ 层 Transformer decoder 后得到隐表示：

{z_{ℓ, j}^{(i)}}_{ℓ = 1, j = 0}^{L, J - 1} = f_{θ}^{LVLM} (I^{(i)}, s^{(i)})

自回归生成下一个 token 的概率为：

P (y_{t + 1}^{(i)} | y_{1 : t}^{(i)}, z_{L, 0 : J - 1}^{(i)}) = softmax (W_{o} z_{L, j_{t}}^{(i)})

2.2 对比数据集

HIME 沿用 Nullu 的策略，使用 LURE 数据集。该数据集包含视觉-语言配对 $D = {(x_{i}^{+}, x_{i}^{-})}_{i = 1}^{N}$ ：

$x_{i}^{+}$ ：真实描述（ground-truth caption），准确对应图像内容
$x_{i}^{-}$ ：幻觉描述（hallucinated caption），由 GPT-3.5 根据共现统计、对象存在不确定性、位置放置等因素自动生成

三、核心方法

HIME 的核心流程分为两步：

计算 Hallucination Insensitivity Score (HIS) — 量化每层的幻觉敏感度
层自适应权重编辑 — 根据 HIS 对每层施加不同强度的零空间投影

3.1 Hallucination Insensitivity Score (HIS)

3.1.1 层级注意力分析

LVLM 依赖 Transformer 的注意力机制生成文本，因此每个 token 的重要性取决于它在各层中获得的注意力权重。HIME 的核心洞察是：如果某一层在处理真实描述和幻觉描述时的注意力模式差异很大，说明该层有能力区分两者；如果差异很小，说明该层对幻觉"不敏感"，更需要干预。

具体计算步骤：

第一步：提取注意力矩阵。 将真实描述 $x_{i}^{+}$ 和幻觉描述 $x_{i}^{-}$ 分别送入 LVLM，在每层 $ℓ$ 的每个注意力头 $h$ 上计算注意力矩阵：

A^{(h)} = Softmax (\frac{Q^{(h)} K^{(h) ⊤}}{\sqrt{d_{k} / H}}) V^{(h)}

第二步：头平均。 跨注意力头取平均，得到层级注意力矩阵：

{\bar{A}}_{ℓ}^{+} = \frac{1}{H} \sum_{h = 1}^{H} A_{ℓ, h}^{+}, {\bar{A}}_{ℓ}^{+} \in R^{J \times J}

同理对幻觉样本得到 ${\bar{A}}_{ℓ}^{-}$ 。

第三步：向量化并构建直方图。 将 ${\bar{A}}_{ℓ}^{+}$ 展平为一维向量 $a_{ℓ}^{+} = vec ({\bar{A}}_{ℓ}^{+}) \in R^{J^{2}}$ ，然后映射为 $B$ 个 bin 的直方图分布 $p_{ℓ}^{+}$ 和 $q_{ℓ}^{-}$ 。

第四步：计算 KL 散度。 HIS 定义为真实和幻觉注意力分布之间的 KL 散度：

{HIS}_{ℓ} = D_{KL} (p_{ℓ} ∥ q_{ℓ}) = \sum_{b = 1}^{B} p_{ℓ, b} \log \frac{p_{ℓ, b}}{q_{ℓ, b}}

3.1.2 HIS 的直觉解释

HIS 大 → 该层能清晰区分真实与幻觉 → 该层本身已经"健康"，不需要过多干预
HIS 小 → 该层对幻觉"不敏感" → 该层无法区分两者，是幻觉传播的薄弱环节，需要重点干预

用大白话说：HIS 就是给每层做一个"体检"，看它对幻觉的"免疫力"有多强。免疫力弱的层需要更强的"治疗"（编辑），免疫力强的层只需轻微调整。

3.1.3 跨架构的层级模式

论文在 5 个 LVLM（LLaVA-1.5、MiniGPT-4、mPLUG-Owl2、Qwen2-VL、Qwen3-VL）上计算了 HIS，发现了一致的深度依赖模式：

中间层（约 Layer 12–20）通常具有较高的 HIS → 对幻觉鲁棒，需轻微编辑
早期层和晚期层 HIS 较低 → 对幻觉敏感，需较强编辑

这个模式在不同架构（Vicuna/LLaMA/Qwen backbone）间高度一致，说明幻觉敏感度的层级分布是一种普遍现象。

3.2 层自适应权重编辑

3.2.1 注意力引导的特征提取

与 Nullu 仅依赖隐状态不同，HIME 额外利用层级注意力来导出更有信息量的表示。

第一步：提取上下文嵌入。 对每层 $ℓ$ ，提取真实和幻觉样本的 MLP 嵌入特征 $E_{ℓ}^{+}, E_{ℓ}^{-} \in R^{N \times J \times D}$ 。

第二步：计算位置注意力分布。 将注意力矩阵沿 key 维度聚合，得到每个 query 位置的平均注意力权重：

π_{ℓ} [q] = \frac{1}{J} \sum_{k = 1}^{J} {\bar{A}}_{ℓ} [q, k]

$π_{ℓ} \in R^{J}$ 是一个一维的位置重要性分布。

第三步：注意力加权特征。 用注意力分布对隐状态做加权：

Z_{ℓ}^{+} = π_{ℓ}^{+} E_{ℓ}^{+}, Z_{ℓ}^{-} = π_{ℓ}^{-} E_{ℓ}^{-}

得到注意力引导的特征 $Z_{ℓ}^{+}, Z_{ℓ}^{-} \in R^{N \times D}$ 。

直觉：注意力高的 token 位置被赋予更大权重，这比简单平均更能捕捉每层实际"关注"了哪些信息。

3.2.2 幻觉子空间提取

计算真实与幻觉注意力引导特征的差值：

Z_{ℓ} = Z_{ℓ}^{+} - Z_{ℓ}^{-}

对差值矩阵做 SVD 分解：

Z_{ℓ} = U_{ℓ} Σ_{ℓ} V_{ℓ}^{⊤}, U_{ℓ} \in R^{N \times N}, V_{ℓ} \in R^{D \times D}

选取前 $k$ 个右奇异向量 $V_{ℓ, k} \in R^{D \times k}$ ，它们张成了幻觉子空间 — 即真实与幻觉特征差异最显著的方向。

3.2.3 加权零空间投影（核心创新）

定义幻觉投影算子 $P_{ℓ} = V_{ℓ, k} V_{ℓ, k}^{⊤}$ 。Nullu 的做法是直接用完整的零空间投影 $I - P_{ℓ}$ ，HIME 的创新在于引入 HIS 的互补分数 ${HIS}_{ℓ}^{c} \in [0, 1]$ 作为加权系数：

N_{ℓ} = I - {HIS}_{ℓ}^{c} V_{ℓ, k} V_{ℓ, k}^{⊤}

其中 ${HIS}_{ℓ}^{c}$ 是 HIS 的互补值（即 $1 - {normalized HIS}_{ℓ}$ ）：

HIS 大（层对幻觉鲁棒）→ ${HIS}^{c}$ 小 → 投影力度小 → 保留更多预训练知识
HIS 小（层对幻觉不敏感）→ ${HIS}^{c}$ 大 → 投影力度大 → 更积极地移除幻觉方向

这提供了从无编辑（ ${HIS}^{c} = 0$ ）到完全投影（ ${HIS}^{c} = 1$ ）的平滑插值。

最后编辑 MLP 权重：

W_{ℓ, up}^{ed} = N_{ℓ} W_{ℓ, up}^{org}, W_{ℓ, down}^{ed} = W_{ℓ, down}^{org} N_{ℓ}

编辑后的权重直接替换原始权重加载，推理时零额外参数、零延迟、零计算开销。

3.3 算法总览

输入：对比数据 $D = {(x^{+}, x^{-})}$ ，LVLM $M$ ，目标层集合 $L$ ，秩 $k$ ， ${HIS}^{c}$ 系数
输出：编辑后的 LVLM $M^{ed}$

对每层 $ℓ \in L$ ：

提取隐状态嵌入 $E_{ℓ}^{+}, E_{ℓ}^{-}$
计算注意力矩阵 $A_{ℓ}^{+}, A_{ℓ}^{-}$ → 头平均 → ${\bar{A}}_{ℓ}^{+}, {\bar{A}}_{ℓ}^{-}$
计算位置注意力分布 $π_{ℓ}^{+}, π_{ℓ}^{-}$ （列均值）
注意力加权特征 $Z_{ℓ}^{+} = π_{ℓ}^{+} \cdot E_{ℓ}^{+}$ ， $Z_{ℓ}^{-} = π_{ℓ}^{-} \cdot E_{ℓ}^{-}$
差值矩阵 $Z_{ℓ} = Z_{ℓ}^{+} - Z_{ℓ}^{-}$
$SVD (Z_{ℓ})$ → 取前 $k$ 个右奇异向量 $V_{ℓ, k}$
幻觉投影算子 $P_{ℓ} = V_{ℓ, k} V_{ℓ, k}^{⊤}$
加权零空间算子 $N_{ℓ} = I - {HIS}_{ℓ}^{c} \cdot P_{ℓ}$
编辑 MLP 权重： $W_{ℓ, up}^{ed} = N_{ℓ} \cdot W_{ℓ, up}$ ， $W_{ℓ, down}^{ed} = W_{ℓ, down} \cdot N_{ℓ}$

加载编辑后权重，返回 $M^{ed}$ 。

四、实验结果

4.1 实验设置

基线模型： LLaVA-1.5（Vicuna backbone）、MiniGPT-4（LLaMA backbone）、mPLUG-Owl2（LLaMA backbone）、Qwen2-VL-8B-Instruct、Qwen3-VL-8B-Instruct

评估基准：

CHAIR：MSCOCO 数据集上 500 张图像，句子级（ ${CHAIR}_{S}$ ）和实例级（ ${CHAIR}_{I}$ ）幻觉率 + BLEU 评估生成质量
MME：10 个感知子任务 + 4 个认知子任务的综合评测
LLaVA-Bench：GPT-4V 辅助评估，打分维度为准确性和详细度（10 分制）

对比方法： Greedy、Beam Search、DoLa、OPERA、VCD、Woodpecker、LURE、HALC、Nullu

4.2 CHAIR 结果

方法	LLaVA-1.5 $C_{S}$ ↓	$C_{I}$ ↓	BLEU↑	MiniGPT-4 $C_{S}$ ↓	$C_{I}$ ↓	BLEU↑	mPLUG-Owl2 $C_{S}$ ↓	$C_{I}$ ↓	BLEU↑
Greedy	20.40	7.08	15.72	32.40	12.20	14.57	22.90	8.62	15.01
OPERA	17.50	6.07	16.02	29.70	11.90	14.82	20.67	6.40	15.41
HALC	16.90	5.72	16.02	25.20	9.42	14.91	18.80	7.00	15.33
Nullu	15.20	5.30	15.69	21.40	8.99	14.81	15.60	5.77	15.45
HIME	13.80	4.56	15.82	16.80	7.43	14.62	15.40	5.19	15.81

关键观察：

HIME 在所有模型上均取得最低幻觉率。相比 Nullu，LLaVA-1.5 的 $C_{S}$ 从 15.20 降至 13.80（-9.2%）， $C_{I}$ 从 5.30 降至 4.56（-14.0%）；MiniGPT-4 改善更大， $C_{S}$ 从 21.40 降至 16.80（-21.5%）
BLEU 分数保持甚至提升。LLaVA-1.5 上 HIME 的 BLEU（15.82）高于 Nullu（15.69），说明层自适应编辑在抑制幻觉的同时更好地保留了生成质量
$C_{S}$ 的改善尤其重要：该指标只要一句话中含一个幻觉对象就计为错误，HIME 的显著改善表明它能更彻底地消除剩余幻觉

4.3 Qwen 系列模型结果

模型	$C_{S}$ ↓	$C_{I}$ ↓	BLEU↑
Qwen2-VL-8B-Instruct	20.8	5.36	11.16
+ HIME	17.2	4.43	11.30
Qwen3-VL-8B-Instruct	8.40	4.62	9.81
+ HIME	6.00	3.44	8.89

即使在更强的 Qwen3-VL（baseline $C_{S}$ 已低至 8.40）上，HIME 仍能进一步将 $C_{S}$ 降至 6.00， $C_{I}$ 从 4.62 降至 3.44（-25.5%）。

4.4 MME 感知任务结果（LLaVA-1.5）

任务	Original	Nullu	HIME
Existence	181.67	190.00	195.00
Count	118.33	121.11	155.56
Position	104.44	105.56	123.33
Color	152.78	156.67	151.67
Posters	117.23	127.55	130.27
Celebrity	111.67	115.59	135.59
Scene	144.83	147.92	154.50
Landmark	130.65	131.66	161.67
Artwork	108.92	113.00	120.75
OCR	75.83	121.67	125.00

HIME 在除 Color 外的所有感知子任务上均优于 Nullu，且多数以大幅度领先。特别突出的是 Count（+34.45）、Landmark（+30.01）、Celebrity（+19.99）。这表明 HIME 通过减少统计偏差和语言先验，让模型的推理更加视觉接地（visually grounded）。

4.5 GPT-4V 辅助评估（LLaVA-Bench）

指标	Original	Nullu	HIME
Accuracy	5.47	5.83	6.15
Detailedness	4.84	4.57	4.75

HIME 在准确性上大幅领先，同时详细度优于 Nullu 但略低于原始模型——层自适应编辑更好地平衡了幻觉抑制与细节保留。

4.6 消融实验

HIS 的有效性

配置	$C_{S}$ ↓	$C_{I}$ ↓	BLEU↑
Without HIS（固定权重编辑）	~17.5	~5.8	~14.5
With HIS（层自适应编辑）	~13.8	~4.6	~15.8

去掉 HIS 加权后，幻觉率显著上升且 BLEU 明显下降——固定权重编辑会丢弃有价值的预训练知识。

编辑层范围

编辑层 $ℓ$	$C_{S}$	$C_{I}$	BLEU
5–32	18.6	6.44	15.15
10–32	18.2	5.95	15.16
20–32	13.8	4.56	15.82
30–32	15.6	4.99	15.62

编辑后半部分层（20–32）效果最佳，与"晚期解码阶段模型更少关注视觉信息、更依赖语言先验"的观察一致。

top-k 奇异向量

k	$C_{S}$	$C_{I}$	BLEU
2	20.2	6.53	15.58
5	13.8	4.56	15.82
10	17.0	5.39	15.65
32	15.8	5.5	14.29

$k = 5$ 是最优选择。 $k$ 太小则幻觉子空间捕获不完整， $k$ 太大则投影过度侵入有用特征方向。

五、局限性与未来方向

依赖对比数据集：HIME 需要 LURE 这样的真实/幻觉描述配对数据来计算 HIS 和提取幻觉子空间，数据质量和覆盖度直接影响编辑效果
超参数因模型而异：编辑层范围 $ℓ$ 、奇异向量数 $k$ 、beam 数等需要针对每个模型分别调优（如 LLaVA-1.5 用 $k = 5$ ，mPLUG-Owl2 用 $k = 32$ ），缺乏自动选择机制
幻觉类型的覆盖：当前聚焦于对象幻觉（不存在的对象），对属性幻觉、关系幻觉等更细粒度的幻觉类型未做专门处理
HIS 仅计算一次：HIS 从固定的对比数据集上一次性计算，无法动态适应不同输入。面对分布外的图像或提示，层级敏感度模式可能发生变化

六、个人思考

6.1 方法简洁性的优势

HIME 的整个方法链条非常清晰：KL 散度量化层敏感度 → SVD 提取幻觉子空间 → 加权投影编辑 MLP 权重。无训练、无额外参数、无推理开销——这是一种极其实用的"一次编辑，永久生效"的范式。相比需要改变推理流程的 VCD/OPERA 等方法，部署成本几乎为零。

6.2 与知识编辑领域的联系

HIME 本质上是一种结构化的知识编辑方法。传统的 LLM 知识编辑（如 ROME、MEMIT）通过定位并修改存储特定知识的参数来纠正事实错误。HIME 的不同之处在于它不针对特定事实，而是从统计层面识别"幻觉倾向方向"并投影去除。这种思路或许可以推广到 LLM 的其他不良行为（如毒性生成、偏见表达）的缓解。

6.3 层级分析的启示

HIS 的层级模式（中间层鲁棒、早晚期层脆弱）非常有趣。中间层可能承担了更多的"视觉-语言对齐"功能，因此对视觉信息的编码更加忠实；而晚期层更接近语言生成端，更容易受到语言先验（如共现统计）的影响。这与 DoLa 的发现（对比不同层的 logit 分布可以减少幻觉）形成了互补的理论支撑。

6.4 潜在改进方向

自动超参选择：用验证集上的 CHAIR 指标自动搜索最优的 $ℓ$ 范围和 $k$ 值
动态 HIS：根据输入图像的复杂度动态调整层级权重，而非使用固定的全局 HIS
与推理时方法结合：HIME（离线编辑）和 VCD/OPERA（推理时解码）是正交的，理论上可以叠加使用

参考

Nullu (Yang et al., 2025)：HIME 的直接前身，用固定零空间投影编辑权重，HIME 的层自适应策略是对其核心改进
VCD (Leng et al., 2024)：视觉对比解码，通过对比有/无视觉输入的分布来抑制幻觉，代表推理时方法
OPERA (Huang et al., 2024)：通过过度信任惩罚和回溯分配缓解注意力汇聚导致的幻觉
DoLa (Chuang et al., 2024)：通过对比不同层的 logit 分布提升事实性，与 HIME 的层级分析视角互补
LURE (Zhou et al., 2024)：提供真实/幻觉对比数据集，是 HIME 和 Nullu 的数据基础
CHAIR (Rohrbach et al., 2018)：对象幻觉评估基准，计算生成描述中幻觉对象的比例

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

HIME：基于幻觉不敏感度的层自适应模型编辑——消除 LVLM 中的对象幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 LVLM 的对象幻觉问题 ​

1.2 现有方法的不足 ​

1.3 核心问题 ​

二、预备知识 ​

2.1 LVLM 的前向传播 ​

2.2 对比数据集 ​

三、核心方法 ​

3.1 Hallucination Insensitivity Score (HIS) ​

3.1.1 层级注意力分析 ​

3.1.2 HIS 的直觉解释 ​

3.1.3 跨架构的层级模式 ​

3.2 层自适应权重编辑 ​

3.2.1 注意力引导的特征提取 ​

3.2.2 幻觉子空间提取 ​

3.2.3 加权零空间投影（核心创新） ​

3.3 算法总览 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 CHAIR 结果 ​

4.3 Qwen 系列模型结果 ​

4.4 MME 感知任务结果（LLaVA-1.5） ​

4.5 GPT-4V 辅助评估（LLaVA-Bench） ​

4.6 消融实验 ​

HIS 的有效性 ​

编辑层范围 ​

top-k 奇异向量 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 方法简洁性的优势 ​

6.2 与知识编辑领域的联系 ​

6.3 层级分析的启示 ​

6.4 潜在改进方向 ​

参考 ​