HIME:基于幻觉不敏感度的层自适应模型编辑——消除 LVLM 中的对象幻觉
论文:HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing
作者:Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian, Zhe Wang, Sara Khalifa, Kewen Wang
机构:Griffith University, CSIRO Data61, Macquarie University, Queensland University of Technology
发布时间:2026年2月
论文链接:arXiv
分类标签:
LVLMObject HallucinationModel EditingTraining-Free
一句话总结
提出 Hallucination Insensitivity Score (HIS) 量化每层 decoder 对幻觉的敏感度,然后用层自适应加权投影编辑 MLP 权重,无需训练/额外参数/推理开销即可平均降低 61.8% 的对象幻觉。
一、问题与动机
1.1 LVLM 的对象幻觉问题
大视觉-语言模型(LVLM)如 LLaVA-1.5、MiniGPT-4、mPLUG-Owl2 等在多模态理解上表现出色,但存在严重的对象幻觉(Object Hallucination) 问题:模型会描述图像中不存在的对象或赋予错误的属性。
例如,给一张"棕色大狗坐在床上"的图片,LLaVA-1.5 会幻觉出 "chair" 和 "couch"——这些是与 "bed" 频繁共现的语言先验,并非视觉内容中实际存在的物体。这种跨模态错位(cross-modal misalignment)严重影响了 LVLM 在安全关键场景中的可信度。
1.2 现有方法的不足
现有缓解方法大致分为三类,各有缺陷:
| 类别 | 代表方法 | 问题 |
|---|---|---|
| 微调 | RLHF-V, DPO | 计算成本高,需要精心策划的监督数据 |
| 对比解码 | VCD, DoLa, OPERA | 推理时引入额外生成路径,增加延迟和计算开销 |
| 权重编辑 | Nullu | 固定权重编辑,对所有层施加同等强度的修改 |
HIME 重点针对第三类方法的缺陷。Nullu 方法虽然有效地通过零空间投影移除了幻觉方向,但它对所有层施加同等强度的编辑,产生了知识蒸馏(knowledge distortion) 的副作用:在移除幻觉对象 "chair" 的同时,也抑制了实际存在的对象 "bed",因为这两者在预训练知识中高度关联。
1.3 核心问题
每一层到底需要多大程度的干预,才能在抑制幻觉的同时保留预训练知识?
HIME 的发现是:幻觉并非均匀分布在所有 decoder 层中,而是呈现强烈的深度依赖模式。某些层对幻觉高度敏感,某些层则天然具有鲁棒性。因此,应该对不同层施加不同强度的干预。
二、预备知识
2.1 LVLM 的前向传播
LVLM 的输入由视觉和文本两部分拼接而成:
视觉 Token: 图像
文本 Token: 查询文本分词后得到:
拼接输入:
经过
自回归生成下一个 token 的概率为:
2.2 对比数据集
HIME 沿用 Nullu 的策略,使用 LURE 数据集。该数据集包含视觉-语言配对
:真实描述(ground-truth caption),准确对应图像内容 :幻觉描述(hallucinated caption),由 GPT-3.5 根据共现统计、对象存在不确定性、位置放置等因素自动生成
三、核心方法
HIME 的核心流程分为两步:
- 计算 Hallucination Insensitivity Score (HIS) — 量化每层的幻觉敏感度
- 层自适应权重编辑 — 根据 HIS 对每层施加不同强度的零空间投影
3.1 Hallucination Insensitivity Score (HIS)
3.1.1 层级注意力分析
LVLM 依赖 Transformer 的注意力机制生成文本,因此每个 token 的重要性取决于它在各层中获得的注意力权重。HIME 的核心洞察是:如果某一层在处理真实描述和幻觉描述时的注意力模式差异很大,说明该层有能力区分两者;如果差异很小,说明该层对幻觉"不敏感",更需要干预。
具体计算步骤:
第一步:提取注意力矩阵。 将真实描述
第二步:头平均。 跨注意力头取平均,得到层级注意力矩阵:
同理对幻觉样本得到
第三步:向量化并构建直方图。 将
第四步:计算 KL 散度。 HIS 定义为真实和幻觉注意力分布之间的 KL 散度:
3.1.2 HIS 的直觉解释
- HIS 大 → 该层能清晰区分真实与幻觉 → 该层本身已经"健康",不需要过多干预
- HIS 小 → 该层对幻觉"不敏感" → 该层无法区分两者,是幻觉传播的薄弱环节,需要重点干预
用大白话说:HIS 就是给每层做一个"体检",看它对幻觉的"免疫力"有多强。免疫力弱的层需要更强的"治疗"(编辑),免疫力强的层只需轻微调整。
3.1.3 跨架构的层级模式
论文在 5 个 LVLM(LLaVA-1.5、MiniGPT-4、mPLUG-Owl2、Qwen2-VL、Qwen3-VL)上计算了 HIS,发现了一致的深度依赖模式:
- 中间层(约 Layer 12–20)通常具有较高的 HIS → 对幻觉鲁棒,需轻微编辑
- 早期层和晚期层 HIS 较低 → 对幻觉敏感,需较强编辑
这个模式在不同架构(Vicuna/LLaMA/Qwen backbone)间高度一致,说明幻觉敏感度的层级分布是一种普遍现象。
3.2 层自适应权重编辑
3.2.1 注意力引导的特征提取
与 Nullu 仅依赖隐状态不同,HIME 额外利用层级注意力来导出更有信息量的表示。
第一步:提取上下文嵌入。 对每层
第二步:计算位置注意力分布。 将注意力矩阵沿 key 维度聚合,得到每个 query 位置的平均注意力权重:
第三步:注意力加权特征。 用注意力分布对隐状态做加权:
得到注意力引导的特征
直觉:注意力高的 token 位置被赋予更大权重,这比简单平均更能捕捉每层实际"关注"了哪些信息。
3.2.2 幻觉子空间提取
计算真实与幻觉注意力引导特征的差值:
对差值矩阵做 SVD 分解:
选取前
3.2.3 加权零空间投影(核心创新)
定义幻觉投影算子
其中
- HIS 大(层对幻觉鲁棒)→
小 → 投影力度小 → 保留更多预训练知识 - HIS 小(层对幻觉不敏感)→
大 → 投影力度大 → 更积极地移除幻觉方向
这提供了从无编辑(
最后编辑 MLP 权重:
编辑后的权重直接替换原始权重加载,推理时零额外参数、零延迟、零计算开销。
3.3 算法总览
输入:对比数据
,LVLM ,目标层集合 ,秩 , 系数 输出:编辑后的 LVLM
对每层
- 提取隐状态嵌入
- 计算注意力矩阵
→ 头平均 → - 计算位置注意力分布
(列均值) - 注意力加权特征
, - 差值矩阵
→ 取前 个右奇异向量 - 幻觉投影算子
- 加权零空间算子
- 编辑 MLP 权重:
,
加载编辑后权重,返回
四、实验结果
4.1 实验设置
基线模型: LLaVA-1.5(Vicuna backbone)、MiniGPT-4(LLaMA backbone)、mPLUG-Owl2(LLaMA backbone)、Qwen2-VL-8B-Instruct、Qwen3-VL-8B-Instruct
评估基准:
- CHAIR:MSCOCO 数据集上 500 张图像,句子级(
)和实例级( )幻觉率 + BLEU 评估生成质量 - MME:10 个感知子任务 + 4 个认知子任务的综合评测
- LLaVA-Bench:GPT-4V 辅助评估,打分维度为准确性和详细度(10 分制)
对比方法: Greedy、Beam Search、DoLa、OPERA、VCD、Woodpecker、LURE、HALC、Nullu
4.2 CHAIR 结果
| 方法 | LLaVA-1.5 | BLEU↑ | MiniGPT-4 | BLEU↑ | mPLUG-Owl2 | BLEU↑ | |||
|---|---|---|---|---|---|---|---|---|---|
| Greedy | 20.40 | 7.08 | 15.72 | 32.40 | 12.20 | 14.57 | 22.90 | 8.62 | 15.01 |
| OPERA | 17.50 | 6.07 | 16.02 | 29.70 | 11.90 | 14.82 | 20.67 | 6.40 | 15.41 |
| HALC | 16.90 | 5.72 | 16.02 | 25.20 | 9.42 | 14.91 | 18.80 | 7.00 | 15.33 |
| Nullu | 15.20 | 5.30 | 15.69 | 21.40 | 8.99 | 14.81 | 15.60 | 5.77 | 15.45 |
| HIME | 13.80 | 4.56 | 15.82 | 16.80 | 7.43 | 14.62 | 15.40 | 5.19 | 15.81 |
关键观察:
- HIME 在所有模型上均取得最低幻觉率。相比 Nullu,LLaVA-1.5 的
从 15.20 降至 13.80(-9.2%), 从 5.30 降至 4.56(-14.0%);MiniGPT-4 改善更大, 从 21.40 降至 16.80(-21.5%) - BLEU 分数保持甚至提升。LLaVA-1.5 上 HIME 的 BLEU(15.82)高于 Nullu(15.69),说明层自适应编辑在抑制幻觉的同时更好地保留了生成质量
的改善尤其重要:该指标只要一句话中含一个幻觉对象就计为错误,HIME 的显著改善表明它能更彻底地消除剩余幻觉
4.3 Qwen 系列模型结果
| 模型 | BLEU↑ | ||
|---|---|---|---|
| Qwen2-VL-8B-Instruct | 20.8 | 5.36 | 11.16 |
| + HIME | 17.2 | 4.43 | 11.30 |
| Qwen3-VL-8B-Instruct | 8.40 | 4.62 | 9.81 |
| + HIME | 6.00 | 3.44 | 8.89 |
即使在更强的 Qwen3-VL(baseline
4.4 MME 感知任务结果(LLaVA-1.5)
| 任务 | Original | Nullu | HIME |
|---|---|---|---|
| Existence | 181.67 | 190.00 | 195.00 |
| Count | 118.33 | 121.11 | 155.56 |
| Position | 104.44 | 105.56 | 123.33 |
| Color | 152.78 | 156.67 | 151.67 |
| Posters | 117.23 | 127.55 | 130.27 |
| Celebrity | 111.67 | 115.59 | 135.59 |
| Scene | 144.83 | 147.92 | 154.50 |
| Landmark | 130.65 | 131.66 | 161.67 |
| Artwork | 108.92 | 113.00 | 120.75 |
| OCR | 75.83 | 121.67 | 125.00 |
HIME 在除 Color 外的所有感知子任务上均优于 Nullu,且多数以大幅度领先。特别突出的是 Count(+34.45)、Landmark(+30.01)、Celebrity(+19.99)。这表明 HIME 通过减少统计偏差和语言先验,让模型的推理更加视觉接地(visually grounded)。
4.5 GPT-4V 辅助评估(LLaVA-Bench)
| 指标 | Original | Nullu | HIME |
|---|---|---|---|
| Accuracy | 5.47 | 5.83 | 6.15 |
| Detailedness | 4.84 | 4.57 | 4.75 |
HIME 在准确性上大幅领先,同时详细度优于 Nullu 但略低于原始模型——层自适应编辑更好地平衡了幻觉抑制与细节保留。
4.6 消融实验
HIS 的有效性
| 配置 | BLEU↑ | ||
|---|---|---|---|
| Without HIS(固定权重编辑) | ~17.5 | ~5.8 | ~14.5 |
| With HIS(层自适应编辑) | ~13.8 | ~4.6 | ~15.8 |
去掉 HIS 加权后,幻觉率显著上升且 BLEU 明显下降——固定权重编辑会丢弃有价值的预训练知识。
编辑层范围
| 编辑层 | BLEU | ||
|---|---|---|---|
| 5–32 | 18.6 | 6.44 | 15.15 |
| 10–32 | 18.2 | 5.95 | 15.16 |
| 20–32 | 13.8 | 4.56 | 15.82 |
| 30–32 | 15.6 | 4.99 | 15.62 |
编辑后半部分层(20–32)效果最佳,与"晚期解码阶段模型更少关注视觉信息、更依赖语言先验"的观察一致。
top-k 奇异向量
| k | BLEU | ||
|---|---|---|---|
| 2 | 20.2 | 6.53 | 15.58 |
| 5 | 13.8 | 4.56 | 15.82 |
| 10 | 17.0 | 5.39 | 15.65 |
| 32 | 15.8 | 5.5 | 14.29 |
五、局限性与未来方向
- 依赖对比数据集:HIME 需要 LURE 这样的真实/幻觉描述配对数据来计算 HIS 和提取幻觉子空间,数据质量和覆盖度直接影响编辑效果
- 超参数因模型而异:编辑层范围
、奇异向量数 、beam 数等需要针对每个模型分别调优(如 LLaVA-1.5 用 ,mPLUG-Owl2 用 ),缺乏自动选择机制 - 幻觉类型的覆盖:当前聚焦于对象幻觉(不存在的对象),对属性幻觉、关系幻觉等更细粒度的幻觉类型未做专门处理
- HIS 仅计算一次:HIS 从固定的对比数据集上一次性计算,无法动态适应不同输入。面对分布外的图像或提示,层级敏感度模式可能发生变化
六、个人思考
6.1 方法简洁性的优势
HIME 的整个方法链条非常清晰:KL 散度量化层敏感度 → SVD 提取幻觉子空间 → 加权投影编辑 MLP 权重。无训练、无额外参数、无推理开销——这是一种极其实用的"一次编辑,永久生效"的范式。相比需要改变推理流程的 VCD/OPERA 等方法,部署成本几乎为零。
6.2 与知识编辑领域的联系
HIME 本质上是一种结构化的知识编辑方法。传统的 LLM 知识编辑(如 ROME、MEMIT)通过定位并修改存储特定知识的参数来纠正事实错误。HIME 的不同之处在于它不针对特定事实,而是从统计层面识别"幻觉倾向方向"并投影去除。这种思路或许可以推广到 LLM 的其他不良行为(如毒性生成、偏见表达)的缓解。
6.3 层级分析的启示
HIS 的层级模式(中间层鲁棒、早晚期层脆弱)非常有趣。中间层可能承担了更多的"视觉-语言对齐"功能,因此对视觉信息的编码更加忠实;而晚期层更接近语言生成端,更容易受到语言先验(如共现统计)的影响。这与 DoLa 的发现(对比不同层的 logit 分布可以减少幻觉)形成了互补的理论支撑。
6.4 潜在改进方向
- 自动超参选择:用验证集上的 CHAIR 指标自动搜索最优的
范围和 值 - 动态 HIS:根据输入图像的复杂度动态调整层级权重,而非使用固定的全局 HIS
- 与推理时方法结合:HIME(离线编辑)和 VCD/OPERA(推理时解码)是正交的,理论上可以叠加使用
参考
- Nullu (Yang et al., 2025):HIME 的直接前身,用固定零空间投影编辑权重,HIME 的层自适应策略是对其核心改进
- VCD (Leng et al., 2024):视觉对比解码,通过对比有/无视觉输入的分布来抑制幻觉,代表推理时方法
- OPERA (Huang et al., 2024):通过过度信任惩罚和回溯分配缓解注意力汇聚导致的幻觉
- DoLa (Chuang et al., 2024):通过对比不同层的 logit 分布提升事实性,与 HIME 的层级分析视角互补
- LURE (Zhou et al., 2024):提供真实/幻觉对比数据集,是 HIME 和 Nullu 的数据基础
- CHAIR (Rohrbach et al., 2018):对象幻觉评估基准,计算生成描述中幻觉对象的比例