Skip to content

HIME:基于幻觉不敏感度的层自适应模型编辑——消除 LVLM 中的对象幻觉

论文HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

作者:Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian, Zhe Wang, Sara Khalifa, Kewen Wang

机构:Griffith University, CSIRO Data61, Macquarie University, Queensland University of Technology

发布时间:2026年2月

论文链接arXiv

分类标签LVLM Object Hallucination Model Editing Training-Free


一句话总结

提出 Hallucination Insensitivity Score (HIS) 量化每层 decoder 对幻觉的敏感度,然后用层自适应加权投影编辑 MLP 权重,无需训练/额外参数/推理开销即可平均降低 61.8% 的对象幻觉。


一、问题与动机

1.1 LVLM 的对象幻觉问题

大视觉-语言模型(LVLM)如 LLaVA-1.5、MiniGPT-4、mPLUG-Owl2 等在多模态理解上表现出色,但存在严重的对象幻觉(Object Hallucination) 问题:模型会描述图像中不存在的对象或赋予错误的属性

例如,给一张"棕色大狗坐在床上"的图片,LLaVA-1.5 会幻觉出 "chair" 和 "couch"——这些是与 "bed" 频繁共现的语言先验,并非视觉内容中实际存在的物体。这种跨模态错位(cross-modal misalignment)严重影响了 LVLM 在安全关键场景中的可信度。

1.2 现有方法的不足

现有缓解方法大致分为三类,各有缺陷:

类别代表方法问题
微调RLHF-V, DPO计算成本高,需要精心策划的监督数据
对比解码VCD, DoLa, OPERA推理时引入额外生成路径,增加延迟和计算开销
权重编辑Nullu固定权重编辑,对所有层施加同等强度的修改

HIME 重点针对第三类方法的缺陷。Nullu 方法虽然有效地通过零空间投影移除了幻觉方向,但它对所有层施加同等强度的编辑,产生了知识蒸馏(knowledge distortion) 的副作用:在移除幻觉对象 "chair" 的同时,也抑制了实际存在的对象 "bed",因为这两者在预训练知识中高度关联。

1.3 核心问题

每一层到底需要多大程度的干预,才能在抑制幻觉的同时保留预训练知识?

HIME 的发现是:幻觉并非均匀分布在所有 decoder 层中,而是呈现强烈的深度依赖模式。某些层对幻觉高度敏感,某些层则天然具有鲁棒性。因此,应该对不同层施加不同强度的干预。


二、预备知识

2.1 LVLM 的前向传播

LVLM 的输入由视觉和文本两部分拼接而成:

视觉 Token: 图像 I(i)RH×W×C 经视觉编码器(如 ViT、CLIP)提取特征,再通过视觉-语言对齐模块(如 Q-Former 或线性投影)映射到语言嵌入空间:

X(i)=[x0(i),x1(i),,xN1(i)],xn(i)Rd

文本 Token: 查询文本分词后得到:

T(i)=[t0(i),t1(i),,tM1(i)],tm(i)Rd

拼接输入: [X(i),T(i)]RJ×d,其中 J=N+M

经过 L 层 Transformer decoder 后得到隐表示:

{z,j(i)}=1,j=0L,J1=fθLVLM(I(i),s(i))

自回归生成下一个 token 的概率为:

P(yt+1(i)|y1:t(i),zL,0:J1(i))=softmax(WozL,jt(i))

2.2 对比数据集

HIME 沿用 Nullu 的策略,使用 LURE 数据集。该数据集包含视觉-语言配对 D={(xi+,xi)}i=1N

  • xi+真实描述(ground-truth caption),准确对应图像内容
  • xi幻觉描述(hallucinated caption),由 GPT-3.5 根据共现统计、对象存在不确定性、位置放置等因素自动生成

三、核心方法

HIME 的核心流程分为两步:

  1. 计算 Hallucination Insensitivity Score (HIS) — 量化每层的幻觉敏感度
  2. 层自适应权重编辑 — 根据 HIS 对每层施加不同强度的零空间投影

3.1 Hallucination Insensitivity Score (HIS)

3.1.1 层级注意力分析

LVLM 依赖 Transformer 的注意力机制生成文本,因此每个 token 的重要性取决于它在各层中获得的注意力权重。HIME 的核心洞察是:如果某一层在处理真实描述和幻觉描述时的注意力模式差异很大,说明该层有能力区分两者;如果差异很小,说明该层对幻觉"不敏感",更需要干预。

具体计算步骤:

第一步:提取注意力矩阵。 将真实描述 xi+ 和幻觉描述 xi 分别送入 LVLM,在每层 的每个注意力头 h 上计算注意力矩阵:

A(h)=Softmax(Q(h)K(h)dk/H)V(h)

第二步:头平均。 跨注意力头取平均,得到层级注意力矩阵:

A¯+=1Hh=1HA,h+,A¯+RJ×J

同理对幻觉样本得到 A¯

第三步:向量化并构建直方图。A¯+ 展平为一维向量 a+=vec(A¯+)RJ2,然后映射为 B 个 bin 的直方图分布 p+q

第四步:计算 KL 散度。 HIS 定义为真实和幻觉注意力分布之间的 KL 散度:

HIS=DKL(pq)=b=1Bp,blogp,bq,b

3.1.2 HIS 的直觉解释

  • HIS 大 → 该层能清晰区分真实与幻觉 → 该层本身已经"健康",不需要过多干预
  • HIS 小 → 该层对幻觉"不敏感" → 该层无法区分两者,是幻觉传播的薄弱环节,需要重点干预

用大白话说:HIS 就是给每层做一个"体检",看它对幻觉的"免疫力"有多强。免疫力弱的层需要更强的"治疗"(编辑),免疫力强的层只需轻微调整。

3.1.3 跨架构的层级模式

论文在 5 个 LVLM(LLaVA-1.5、MiniGPT-4、mPLUG-Owl2、Qwen2-VL、Qwen3-VL)上计算了 HIS,发现了一致的深度依赖模式:

  • 中间层(约 Layer 12–20)通常具有较高的 HIS → 对幻觉鲁棒,需轻微编辑
  • 早期层和晚期层 HIS 较低 → 对幻觉敏感,需较强编辑

这个模式在不同架构(Vicuna/LLaMA/Qwen backbone)间高度一致,说明幻觉敏感度的层级分布是一种普遍现象。

3.2 层自适应权重编辑

3.2.1 注意力引导的特征提取

与 Nullu 仅依赖隐状态不同,HIME 额外利用层级注意力来导出更有信息量的表示。

第一步:提取上下文嵌入。 对每层 ,提取真实和幻觉样本的 MLP 嵌入特征 E+,ERN×J×D

第二步:计算位置注意力分布。 将注意力矩阵沿 key 维度聚合,得到每个 query 位置的平均注意力权重:

π[q]=1Jk=1JA¯[q,k]

πRJ 是一个一维的位置重要性分布。

第三步:注意力加权特征。 用注意力分布对隐状态做加权:

Z+=π+E+,Z=πE

得到注意力引导的特征 Z+,ZRN×D

直觉:注意力高的 token 位置被赋予更大权重,这比简单平均更能捕捉每层实际"关注"了哪些信息。

3.2.2 幻觉子空间提取

计算真实与幻觉注意力引导特征的差值:

Z=Z+Z

对差值矩阵做 SVD 分解:

Z=UΣV,URN×N,VRD×D

选取前 k 个右奇异向量 V,kRD×k,它们张成了幻觉子空间 — 即真实与幻觉特征差异最显著的方向。

3.2.3 加权零空间投影(核心创新)

定义幻觉投影算子 P=V,kV,k。Nullu 的做法是直接用完整的零空间投影 IP,HIME 的创新在于引入 HIS 的互补分数 HISc[0,1] 作为加权系数:

N=IHIScV,kV,k

其中 HISc 是 HIS 的互补值(即 1normalized HIS):

  • HIS 大(层对幻觉鲁棒)→ HISc 小 → 投影力度小 → 保留更多预训练知识
  • HIS 小(层对幻觉不敏感)→ HISc 大 → 投影力度大 → 更积极地移除幻觉方向

这提供了从无编辑HISc=0)到完全投影HISc=1)的平滑插值。

最后编辑 MLP 权重:

W,uped=NW,uporg,W,downed=W,downorgN

编辑后的权重直接替换原始权重加载,推理时零额外参数、零延迟、零计算开销

3.3 算法总览

输入:对比数据 D={(x+,x)},LVLM M,目标层集合 L,秩 kHISc 系数

输出:编辑后的 LVLM Med

对每层 L

  1. 提取隐状态嵌入 E+,E
  2. 计算注意力矩阵 A+,A → 头平均 → A¯+,A¯
  3. 计算位置注意力分布 π+,π(列均值)
  4. 注意力加权特征 Z+=π+E+Z=πE
  5. 差值矩阵 Z=Z+Z
  6. SVD(Z) → 取前 k 个右奇异向量 V,k
  7. 幻觉投影算子 P=V,kV,k
  8. 加权零空间算子 N=IHIScP
  9. 编辑 MLP 权重:W,uped=NW,upW,downed=W,downN

加载编辑后权重,返回 Med


四、实验结果

4.1 实验设置

基线模型: LLaVA-1.5(Vicuna backbone)、MiniGPT-4(LLaMA backbone)、mPLUG-Owl2(LLaMA backbone)、Qwen2-VL-8B-Instruct、Qwen3-VL-8B-Instruct

评估基准:

  • CHAIR:MSCOCO 数据集上 500 张图像,句子级(CHAIRS)和实例级(CHAIRI)幻觉率 + BLEU 评估生成质量
  • MME:10 个感知子任务 + 4 个认知子任务的综合评测
  • LLaVA-Bench:GPT-4V 辅助评估,打分维度为准确性和详细度(10 分制)

对比方法: Greedy、Beam Search、DoLa、OPERA、VCD、Woodpecker、LURE、HALC、Nullu

4.2 CHAIR 结果

方法LLaVA-1.5 CSCIBLEU↑MiniGPT-4 CSCIBLEU↑mPLUG-Owl2 CSCIBLEU↑
Greedy20.407.0815.7232.4012.2014.5722.908.6215.01
OPERA17.506.0716.0229.7011.9014.8220.676.4015.41
HALC16.905.7216.0225.209.4214.9118.807.0015.33
Nullu15.205.3015.6921.408.9914.8115.605.7715.45
HIME13.804.5615.8216.807.4314.6215.405.1915.81

关键观察:

  1. HIME 在所有模型上均取得最低幻觉率。相比 Nullu,LLaVA-1.5 的 CS 从 15.20 降至 13.80(-9.2%),CI 从 5.30 降至 4.56(-14.0%);MiniGPT-4 改善更大,CS 从 21.40 降至 16.80(-21.5%)
  2. BLEU 分数保持甚至提升。LLaVA-1.5 上 HIME 的 BLEU(15.82)高于 Nullu(15.69),说明层自适应编辑在抑制幻觉的同时更好地保留了生成质量
  3. CS 的改善尤其重要:该指标只要一句话中含一个幻觉对象就计为错误,HIME 的显著改善表明它能更彻底地消除剩余幻觉

4.3 Qwen 系列模型结果

模型CSCIBLEU↑
Qwen2-VL-8B-Instruct20.85.3611.16
+ HIME17.24.4311.30
Qwen3-VL-8B-Instruct8.404.629.81
+ HIME6.003.448.89

即使在更强的 Qwen3-VL(baseline CS 已低至 8.40)上,HIME 仍能进一步将 CS 降至 6.00,CI 从 4.62 降至 3.44(-25.5%)。

4.4 MME 感知任务结果(LLaVA-1.5)

任务OriginalNulluHIME
Existence181.67190.00195.00
Count118.33121.11155.56
Position104.44105.56123.33
Color152.78156.67151.67
Posters117.23127.55130.27
Celebrity111.67115.59135.59
Scene144.83147.92154.50
Landmark130.65131.66161.67
Artwork108.92113.00120.75
OCR75.83121.67125.00

HIME 在除 Color 外的所有感知子任务上均优于 Nullu,且多数以大幅度领先。特别突出的是 Count(+34.45)、Landmark(+30.01)、Celebrity(+19.99)。这表明 HIME 通过减少统计偏差和语言先验,让模型的推理更加视觉接地(visually grounded)。

4.5 GPT-4V 辅助评估(LLaVA-Bench)

指标OriginalNulluHIME
Accuracy5.475.836.15
Detailedness4.844.574.75

HIME 在准确性上大幅领先,同时详细度优于 Nullu 但略低于原始模型——层自适应编辑更好地平衡了幻觉抑制与细节保留。

4.6 消融实验

HIS 的有效性

配置CSCIBLEU↑
Without HIS(固定权重编辑)~17.5~5.8~14.5
With HIS(层自适应编辑)~13.8~4.6~15.8

去掉 HIS 加权后,幻觉率显著上升且 BLEU 明显下降——固定权重编辑会丢弃有价值的预训练知识。

编辑层范围

编辑层 CSCIBLEU
5–3218.66.4415.15
10–3218.25.9515.16
20–3213.84.5615.82
30–3215.64.9915.62

编辑后半部分层(20–32)效果最佳,与"晚期解码阶段模型更少关注视觉信息、更依赖语言先验"的观察一致。

top-k 奇异向量

kCSCIBLEU
220.26.5315.58
513.84.5615.82
1017.05.3915.65
3215.85.514.29

k=5 是最优选择。k 太小则幻觉子空间捕获不完整,k 太大则投影过度侵入有用特征方向。


五、局限性与未来方向

  1. 依赖对比数据集:HIME 需要 LURE 这样的真实/幻觉描述配对数据来计算 HIS 和提取幻觉子空间,数据质量和覆盖度直接影响编辑效果
  2. 超参数因模型而异:编辑层范围 、奇异向量数 k、beam 数等需要针对每个模型分别调优(如 LLaVA-1.5 用 k=5,mPLUG-Owl2 用 k=32),缺乏自动选择机制
  3. 幻觉类型的覆盖:当前聚焦于对象幻觉(不存在的对象),对属性幻觉、关系幻觉等更细粒度的幻觉类型未做专门处理
  4. HIS 仅计算一次:HIS 从固定的对比数据集上一次性计算,无法动态适应不同输入。面对分布外的图像或提示,层级敏感度模式可能发生变化

六、个人思考

6.1 方法简洁性的优势

HIME 的整个方法链条非常清晰:KL 散度量化层敏感度 → SVD 提取幻觉子空间 → 加权投影编辑 MLP 权重。无训练、无额外参数、无推理开销——这是一种极其实用的"一次编辑,永久生效"的范式。相比需要改变推理流程的 VCD/OPERA 等方法,部署成本几乎为零。

6.2 与知识编辑领域的联系

HIME 本质上是一种结构化的知识编辑方法。传统的 LLM 知识编辑(如 ROME、MEMIT)通过定位并修改存储特定知识的参数来纠正事实错误。HIME 的不同之处在于它不针对特定事实,而是从统计层面识别"幻觉倾向方向"并投影去除。这种思路或许可以推广到 LLM 的其他不良行为(如毒性生成、偏见表达)的缓解。

6.3 层级分析的启示

HIS 的层级模式(中间层鲁棒、早晚期层脆弱)非常有趣。中间层可能承担了更多的"视觉-语言对齐"功能,因此对视觉信息的编码更加忠实;而晚期层更接近语言生成端,更容易受到语言先验(如共现统计)的影响。这与 DoLa 的发现(对比不同层的 logit 分布可以减少幻觉)形成了互补的理论支撑。

6.4 潜在改进方向

  • 自动超参选择:用验证集上的 CHAIR 指标自动搜索最优的 范围和 k
  • 动态 HIS:根据输入图像的复杂度动态调整层级权重,而非使用固定的全局 HIS
  • 与推理时方法结合:HIME(离线编辑)和 VCD/OPERA(推理时解码)是正交的,理论上可以叠加使用

参考

  • Nullu (Yang et al., 2025):HIME 的直接前身,用固定零空间投影编辑权重,HIME 的层自适应策略是对其核心改进
  • VCD (Leng et al., 2024):视觉对比解码,通过对比有/无视觉输入的分布来抑制幻觉,代表推理时方法
  • OPERA (Huang et al., 2024):通过过度信任惩罚和回溯分配缓解注意力汇聚导致的幻觉
  • DoLa (Chuang et al., 2024):通过对比不同层的 logit 分布提升事实性,与 HIME 的层级分析视角互补
  • LURE (Zhou et al., 2024):提供真实/幻觉对比数据集,是 HIME 和 Nullu 的数据基础
  • CHAIR (Rohrbach et al., 2018):对象幻觉评估基准,计算生成描述中幻觉对象的比例