Skip to content

SENTINEL:句子级早期干预缓解 MLLM 对象幻觉

论文Mitigating Object Hallucinations via Sentence-Level Early Intervention

作者:Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian

机构:Harbin Institute of Technology (Shenzhen), The Chinese University of Hong Kong, CUHK (Shenzhen)

发布时间:2025年7月

论文链接arXiv | GitHub

发表会议:ICCV 2025

分类标签MLLM Object Hallucination Preference Learning DPO In-domain Data


一句话总结

发现幻觉主要在生成早期萌发并向后传播,提出 SENTINEL 框架:通过域内自举采样 + 开放词汇检测器交叉验证构建句子级偏好数据,配合上下文感知 DPO (C-DPO) 在幻觉首次出现处实施早期干预,Object HalBench 上幻觉率降低约 92%,同时保持甚至提升通用能力。


一、问题与动机

1.1 MLLM 的对象幻觉及其传播特性

多模态大语言模型(MLLM)在跨模态理解上取得了显著进展,但仍然面临严重的对象幻觉(Object Hallucination) 问题:模型生成与图像内容不一致的虚假描述。

SENTINEL 的核心发现是幻觉具有传播性

  1. 幻觉随文本长度增长:通过分析 300 张 COCO 图片的描述,发现随着生成文本变长,真实对象出现频率下降,幻觉对象出现频率上升(Fig. 2a)
  2. 早期干预可遏制传播:如果在第二句就消除幻觉对象,后续句子的幻觉显著减少、真实对象增多(Fig. 2b)

这一发现揭示了一个关键策略:在幻觉首次出现时就进行干预,而非等到生成完成后再修正

1.2 现有方法的不足

类别代表方法问题
增强解码VCD, OPERA, DoLa推理时引入额外计算开销,增加延迟
偏好学习(大模型/人工标注)HA-DPO, RLHF-V, HSA-DPO依赖 GPT-4 重写或人工标注,成本高昂
偏好学习(输出重写)POVID, HA-DPO重写引入分布偏移——训练数据的文风/表达与模型原始输出不一致
无训练编辑Nullu, HIME不涉及偏好学习,直接编辑权重

SENTINEL 要解决的核心问题是:

如何在不依赖大规模外部模型或人工标注的前提下,高效构建高质量、域内一致的偏好数据,并在幻觉首次出现时精准干预?

1.3 域内数据的重要性

论文通过实验证明(Tab. 2),用 GPT-4 重写偏好数据会导致性能下降:

数据类型Object HalBench Resp.↓Ment.↓MM-Vet↑
域内数据(原始采样)4.32.632.6
GPT-4 重写数据4.82.931.3

分析发现:重写数据偏离模型原始输出分布,导致训练时正负样本区分度降低、损失收敛更慢。保持训练数据与模型输出的文风一致性至关重要。


二、预备知识

2.1 Direct Preference Optimization (DPO)

DPO 直接从偏好数据中学习,无需训练奖励模型。给定输入 x=[v,q](图像+提示)、正样本 yw、负样本 yl,DPO 损失为:

LDPO(θ)=E(x,yw,yl)D[logσ(βlogπθ(yw|x)πref(yw|x)βlogπθ(yl|x)πref(yl|x))]

其中 πθ 是策略模型,πref 是参考模型,β 控制偏离程度。

2.2 开放词汇目标检测

SENTINEL 使用两个开放词汇检测器进行交叉验证:

  • GroundingDINO:基于 grounded pre-training 的检测器,接受文本查询定位图像中的对象
  • YOLO World:基于 YOLO 架构的实时开放词汇检测器

两者交叉验证的核心逻辑:都确认存在→事实性对象;都确认不存在→幻觉对象;一方冲突→不确定,忽略


三、核心方法

SENTINEL 包含三个核心模块,流程如下:

输入:图像 v,提示 q,上下文 c(初始为空)

输出:偏好训练数据 (v,q,c,yw+,yl)

while 模型未生成 /s

  1. 域内候选采样:在 (v,q,c) 条件下采样 n 个候选句子
  2. 对象提取:SceneGraphParser 解析三元组 → 提取名词实体
  3. 对象存在验证:GroundingDINO + YOLO World 交叉验证
  4. 偏好数据构造:非幻觉句子 → yw+,幻觉句子 → yl
  5. 迭代上下文自举:将 yw+ 追加到 c 中,继续下一轮
  6. C-DPO 训练模型

3.1 域内候选自举(In-domain Candidate Bootstrapping)

3.1.1 域内候选采样

对当前模型使用采样解码(而非贪心)生成 n 个候选句子(到句号截止)。关键设计:正样本 yw 和负样本 yl 都来自同一模型的采样分布,确保文风和语言结构一致——这正是"域内"(in-domain)的含义。

3.1.2 对象提取

使用 SceneGraphParser 将候选句子转化为三元组。例如:

"A little black cat sits on a chair next to a table."

解析为:(cat, is, little)、(cat, is, black)、(cat, sit on, chair)、(chair, next to, table)

从中提取名词实体(cat, chair, table),并用 SpaCy + NLTK WordNet Lemmatizer 过滤非具体名词(如 feeling, attribute, event 等抽象词类)。

优势:仅依赖轻量 NLP 工具,无需 GPT-4 或 LLaMA-70B 等大模型辅助。

3.1.3 对象存在验证

使用 GroundingDINO + YOLO World 对提取的对象在图像中做交叉检测:

检测结果分类处理方式
两个检测器都确认存在事实性 (Factual)可用作正样本
两个检测器都确认不存在幻觉 (Hallucinated)用作负样本
两个检测器结果矛盾不确定 (Uncertain)忽略,不参与训练

包含幻觉对象的句子标记为"幻觉句",仅包含事实性对象的句子标记为"非幻觉句"。

为什么忽略不确定对象? 消融实验(Tab. 9)表明,将不确定对象视为事实性或幻觉都会引入噪声,降低训练效果。

3.2 上下文感知偏好数据生成

3.2.1 偏好数据构造

偏好数据由五元组 (v,q,c,yw+,yl) 组成,其中 c上下文(已生成的所有句子,不含当前句)。

正样本 yw 被进一步细分为两类:

  • 上下文相关正样本 yw+:描述的对象在上下文 c 中有提及(与上下文有强相关性)
  • 上下文无关正样本 yw:描述的对象在上下文中没有提及

论文发现(Tab. 3),使用 yw+ 能有效缓解幻觉且不损害通用能力;而混入 yw 会导致性能下降。

正样本类型数据量Object HalBench Resp.↓ScienceQA↑MM-Vet↑
yw+ 100%8.6K4.369.232.6
yw+ 50% + yw 50%10.0K4.869.032.0
yw 100%14.0K4.668.731.6

直觉:上下文相关正样本蕴含了更丰富的上下文信号,引导模型在生成时优先关注与已描述内容连贯的真实对象,而非"跳跃"到无关或幻觉对象。

3.2.2 迭代上下文自举(Iterative Contextual Bootstrapping, ICB)

这是 SENTINEL 的关键设计之一。给定当前上下文 ci,生成偏好数据对后,将非幻觉正样本 yw+ 追加到上下文中,构造新上下文 ci+1=ci+yw+,然后基于新上下文继续采样和构造偏好数据。

c0=""(空上下文)采样构造偏好对 (v,q,c0,yw+,yl)追加到数据集c1=c0+yw+采样构造偏好对 (v,q,c1,yw+,yl)追加到数据集c2=c1+yw+(直到模型生成 /s

ICB 的作用:确保偏好数据覆盖不同长度的上下文,使模型在各种生成阶段都能区分幻觉与非幻觉内容,增强鲁棒性。

消融实验(Tab. 7)验证了 ICB 的有效性:

配置Object HalBench Resp.↓AMBER CHAIR↓MM-Vet↑
w/ ICB4.32.932.6
w/o ICB5.33.131.8

3.2.3 上下文的选择策略

上下文用非幻觉句子填充,还是用幻觉句子或贪心解码的自然句子?Tab. 4 给出了对比:

上下文策略Object HalBench Resp.↓AMBER Hal↓
非幻觉上下文4.314.6
自然上下文(贪心解码)8.615.6
幻觉上下文14.318.6

启示:用非幻觉句子构建上下文最优——这与"早期干预"的核心理念一致:保证上下文无幻觉,模型才能学会在干净上下文中继续生成无幻觉内容。

3.3 上下文感知偏好学习(C-DPO)

SENTINEL 提出 Context-aware DPO (C-DPO),将上下文 c 纳入输入但不参与损失计算

LC-DPO(θ)=E(x,yw+,yl)D[logσ(βlogπθ(yw+|x)πref(yw+|x)βlogπθ(yl|x)πref(yl|x))]

其中 x=[v,q,c]

为什么 mask 上下文?

上下文 c 在正负样本中完全相同。由于自回归模型的特性,相同前缀的 log 概率(logps)在正负样本的前向传播中完全一致,所以上下文部分的梯度在正负样本间互相抵消,不影响参数更新。mask 掉只是减少不必要的计算和数值误差。

C-DPO vs 标准 DPO 的对比(Tab. 11):

方法Resp.↓Ment.↓MM-Vet↑
C-DPO (8.6K)4.32.632.6
标准 DPO (8.6K)10.15.531.7

标准 DPO 用完整描述作为正负样本,正负样本差异过大,导致 logps 波动剧烈、训练不稳定、收敛更慢。C-DPO 聚焦在幻觉首次出现处的句子级差异,梯度更稳定。


四、实验结果

4.1 实验设置

基线模型:LLaVA-v1.5-7B/13B(公平对比设置);扩展实验:LLaVA-v1.6、Qwen2-VL-2B/7B、Qwen2.5-VL-7B

训练设置

  • 数据来源:Visual Genome 约 4K 图像,用 SENTINEL 流程自动构建 8.6K(7B)/ 7.0K(13B)偏好样本
  • 训练:C-DPO + LoRA (rank=128, α=256),1 epoch,lr=2e-6(7B)/ 3e-6(13B)
  • 优化器:AdamW,ZeRO Stage 2

评估基准

  • 幻觉:Object HalBench (Resp./Ment.)、AMBER (CHAIR/Hal/Cog)、HallusionBench
  • 通用能力:VQAv2、TextVQA、ScienceQA、MM-Vet

4.2 主实验结果(LLaVA-v1.5-7B)

方法类别Resp.↓Ment.↓CHAIR↓VQAv2↑TextVQA↑ScienceQA↑MM-Vet↑
baseline-52.728.08.478.558.266.831.0
VCD解码51.325.99.177.056.168.729.8
OPERA解码45.322.96.578.258.268.230.3
DoLa解码44.025.16.276.356.667.530.8
HA-DPO偏好37.020.96.777.656.769.730.6
POVID偏好33.416.65.377.256.668.831.8
RLAIF-V偏好7.84.22.875.255.168.229.9
TPO偏好5.63.23.675.955.367.125.7
SENTINEL偏好4.32.62.978.458.269.232.6

关键观察

  1. 幻觉率降低约 92%:Resp. 从 52.7 降至 4.3,Ment. 从 28.0 降至 2.6,超越前 SOTA TPO(5.6/3.2)
  2. 通用能力不降反升:VQAv2(78.4 vs 78.5)和 TextVQA(58.2)几乎无损,ScienceQA(69.2 vs 66.8)和 MM-Vet(32.6 vs 31.0)反而提升——这与其他偏好学习方法(如 RLAIF-V、TPO)形成鲜明对比,后者通常以牺牲通用能力为代价
  3. 六类幻觉全面改善(AMBER 判别部分):Existence (+6.3)、Attribute (+3.6)、State (+3.6)、Number (+4.9)、Action (+1.0)、Relation (+2.9)

4.3 LLaVA-v1.5-13B 结果

方法Resp.↓Ment.↓CHAIR↓Hal↓Cog↓MM-Vet↑
baseline46.023.06.931.93.336.0
HSA-DPO5.33.22.113.41.233.7
SENTINEL3.31.92.711.70.936.2

在 13B 模型上,SENTINEL 持续保持最低幻觉率且 MM-Vet 超越 baseline(36.2 vs 36.0),而 HSA-DPO 下降到 33.7。

4.4 跨模型泛化(Tab. 19)

模型Resp. (base→SENTINEL)↓Ment.↓MM-Vet↑
LLaVA-v1.6-vicuna-7B15.3→5.010.1→3.440.9→45.4
LLaVA-v1.6-vicuna-13B13.7→4.07.7→2.647.8→48.5
Qwen2-VL-2B-Instruct15.3→2.38.6→1.749.4→49.8
Qwen2-VL-7B-Instruct14.3→4.88.5→4.062.7→62.8
Qwen2.5-VL-7B-Instruct15.0→4.79.2→2.872.0→72.2

模型无关性:SENTINEL 在 LLaVA 和 Qwen 两大系列、2B 到 13B 不同规模上均有效,且通用能力保持或提升。

4.5 与已有方法的互补性

SENTINEL 可以与已有偏好学习方法叠加使用。将 6K SENTINEL 数据加入 HA-DPO 的 4.4K GPT 生成数据中联合训练(Tab. 5):

方法Resp.↓Ment.↓AMBER F1↑MM-Vet↑
HA-DPO 单独37.020.978.030.6
HA-DPO + SENTINEL (6K)8.04.684.233.5

域内数据与 GPT 重写数据形成互补,大幅降低幻觉的同时显著提升通用能力。

4.6 关键消融实验

交叉验证的有效性

检测器Resp.↓Ment.↓
OmDet 单独19.39.9
GroundingDINO 单独14.37.7
YOLO World 单独12.36.9
GroundingDINO + YOLO World6.63.8

两个检测器交叉验证显著优于单一检测器,有效减少假阳性。

数据规模效应

数据量Resp.↓Ment.↓
1K~20~10
2K~14~7
4K~8~5
8.6K4.32.6

幻觉率随数据规模近似线性下降,展现出良好的可扩展性。由于数据构建不依赖大模型或人工标注,扩展成本极低。


五、局限性与未来方向

  1. 仅针对对象幻觉:SENTINEL 的对象检测验证机制天然适用于对象存在性的判断,对属性幻觉、关系幻觉、动作幻觉等更细粒度的类型需要更通用的验证工具
  2. 缺乏时空信息:无法有效处理视频 MLLM 中需要长程推理的幻觉问题
  3. 依赖检测器质量:交叉验证虽然缓解了假阳性,但检测器的覆盖范围和精度仍然是数据质量的瓶颈。更强的检测器(如 Tab. 8 所示)直接带来更好的训练效果
  4. 句子级粒度:以句号为分隔的句子级干预可能在某些复杂句式中不够精细

六、个人思考

6.1 "早期干预"的深层洞察

SENTINEL 最有价值的贡献或许不是具体方法,而是**"幻觉在生成早期萌发并逐步放大"** 这一经验发现。这暗示了自回归模型中幻觉的传播机制:一旦某句话引入了虚假对象,后续生成会将其作为"已建立的上下文",进一步编造相关细节。这与 LLM 中的"滚雪球幻觉"现象高度一致。

6.2 与 HIME 的互补性

SENTINEL(训练时偏好学习)和 HIME(训练无关的权重编辑)分别从训练和推理两个维度缓解幻觉,理论上可以叠加:

维度SENTINELHIME
干预时机训练时(偏好学习)离线(权重编辑)
推理开销
是否需要训练是(LoRA 微调)
幻觉定位粒度句子级(生成过程中)层级(decoder 层维度)
数据依赖自举采样 + 检测器对比数据集(LURE)

两者的结合可能进一步压低幻觉率:HIME 从模型参数层面移除幻觉子空间,SENTINEL 从训练数据层面教会模型区分幻觉与事实。

6.3 域内数据的普适意义

SENTINEL 证明了一个重要原则:训练数据应该与模型输出分布保持一致。这不仅适用于幻觉缓解,对 DPO/RLHF 的通用实践也有启示——用外部大模型重写的 preference data 虽然标注质量更高,但引入的分布偏移可能抵消质量优势。在线采样 + 自动验证可能是更好的范式。

6.4 潜在改进

  • 多轮自迭代:用 SENTINEL 训练后的模型重新采样构建更高质量的偏好数据,进行多轮迭代优化(类似 RLAIF-V 的做法但用域内数据)
  • 细粒度验证:引入 VLM-as-Judge(如 GPT-4V 或开源 VLM)做属性/关系级别的验证,扩展到更多幻觉类型
  • 与推理时方法结合:SENTINEL + VCD/OPERA 可能进一步压低幻觉率(正交策略叠加)

参考

  • HA-DPO (Zhao et al., 2023):用 GPT-4 重写构建偏好数据,SENTINEL 证明域内数据优于重写数据
  • RLAIF-V (Yu et al., 2024):迭代对齐 + "Feedback from Peer" 策略,是 SENTINEL 的直接对比方法
  • TPO (He et al., 2024):主题级自纠正,SENTINEL 的前 SOTA 对比基线
  • VCD (Leng et al., 2024):视觉对比解码,代表推理时干预方法
  • DPO (Rafailov et al., 2023):直接偏好优化,SENTINEL 的 C-DPO 是其上下文感知扩展
  • HIME (Akl et al., 2026):层自适应权重编辑,与 SENTINEL 从不同维度缓解幻觉,可互补