Less is More：从 EOS 决策视角缓解多模态幻觉

论文：Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective
作者：Zihao Yue, Liang Zhang, Qin Jin*
机构：中国人民大学
发布时间：2024年2月（arXiv），ACL 2024 录用
🔗 arXiv | 代码
分类标签：LVLM Hallucination EOS Decision Training Objective Data Filtering

一句话总结

发现 LVLM 具有基于视觉感知评估文本完整性来决定何时终止生成的内在能力，但过度详细的训练数据抑制了这种 EOS 决策能力；提出 Selective EOS Supervision（修改 MLE 在非 EOS 位置排除 EOS 参与概率分布）和 Scoring EOS Supervision（数据过滤策略）两种互补方法，无需额外数据或模型，LLaVA-1.5 句子/实例级幻觉分别降低 26.4%/26.6%。

一、问题与动机

1.1 过度详细的训练数据：被忽视的幻觉来源

现有幻觉研究关注三大根源：(1) 视觉编码器无法表征细粒度特征；(2) 模型过度依赖语言先验和统计偏置；(3) 训练数据本身包含幻觉。但本文指出了一个关键但常被忽视的第四个来源：

训练数据的详细程度超出了模型的视觉感知能力。例如 LLaVA-Instruction 中的详细图像描述数据，整合了多个人工标注和视觉专家模型的信息，被 LLM 改写成冗长段落。这些数据虽然"高质量"，但可能超出模型实际能从图像中感知到的内容。

训练时模型被迫拟合这些超出感知极限的细节 → 抑制了 EOS token 的预测倾向 → 生成不断延续直到超出视觉感知边界 → 产生幻觉。

1.2 理想情况 vs. 现实困境

理想：模型应该在达到视觉感知极限时及时终止生成
困境：难以量化模型的感知极限，因此无法提供显式监督信号来教模型何时停止

1.3 关键发现：模型内在具备 EOS 决策能力

论文通过两组分析发现模型天然具有基于视觉感知做出 EOS 决策的潜力，只是被训练数据所抑制了：

信息流分析（Section 2.1）：EOS 预测依赖整个序列（前文句子占 58%），而非仅当前句子（14%）
语义比较实验（Section 2.2）：模型的 EOS 倾向随视觉-文本完整性动态变化

二、分析：EOS 决策机制

2.1 EOS 预测的信息基础

使用 saliency score 分析 LLaVA-1.5 (7b) 中信息流方向。将上下文分为三部分：图像 token、前文句子、当前句子，观察各自对目标位置预测的贡献。

Saliency 矩阵定义：

I = | A ⊙ \frac{\partial L (x)}{\partial A} |

其中 $A$ 为自注意力分数矩阵， $L (x)$ 为目标位置的交叉熵损失， $I (i, j)$ 反映第 $j$ 个 token 到第 $i$ 个 token 的信息流显著性。

关键结果（Figure 2）：

信息来源	预测普通 token	预测 EOS token
图像 token	17%	16%
当前句子	41%	14%
前文句子	42%	58%

直觉：预测普通 token 时，当前句子和前文句子几乎同等重要；但预测 EOS 时，前文句子的信息显著占主导。这说明模型在决定是否终止生成时，会综合考虑整个已生成序列的状态，而不仅关注当前句子——本质上是在评估"文本是否足以描述图像"。

2.2 EOS 决策中的语义完整性比较

为验证假设，设计三种上下文操纵实验，在不改变序列长度的情况下增减多模态语义：

操纵方式	具体操作	对 EOS 倾向的影响
视觉缩减 (image−)	对输入图像叠加高斯噪声掩码	EOS 倾向显著上升
视觉增强 (image+)	拼接一张随机新图像	EOS 倾向下降
文本缩减 (text−)	用 attention mask 隐藏前 30 个 token	EOS 倾向下降

直觉：
减少图像信息 → 文本更容易"描述完"图像 → 模型更想停
增加图像信息 / 隐藏文本 → 文本相对图像更不完整 → 模型不想停
这证实了模型通过比较已生成文本与感知到的视觉信息的相对完整性来做出 EOS 决策。

2.3 核心洞察

模型虽然被训练数据的长度分布所驱动而持续生成超出感知能力的内容，但仍然内在保留了根据视觉感知调整生成长度的能力。当模型倾向于终止生成时，意味着当前文本已足以覆盖其能感知到的视觉信息，继续生成可能导致幻觉。

三、核心方法

3.1 Selective EOS Supervision（训练目标修改）

问题分析

标准 MLE 训练目标中，EOS 预测存在两种优化情形：

正向：当标签为 $v_{E O S}$ 时，训练增强模型预测 EOS 的倾向 ✓
负向：当标签不是 $v_{E O S}$ 时，如果模型给了 EOS 一定概率，MLE 会惩罚这个 EOS 倾向 ✗

第二种情形是问题所在：模型在某些位置可能已经"觉得应该停了"（因为视觉信息已描述完），但标签是更多内容 token（因为训练数据过于详细），MLE 会压制模型的 EOS 倾向，迫使模型继续生成超出感知能力的内容。

解决方案

对 MLE 做一个极其简洁的修改：当标签不是 EOS 时，将 EOS 从 softmax 概率分布计算中排除。

标签 $y \neq v_{E O S}$ 时，使用修改的 softmax：

p_{y} = {softmax}^{*} (z_{y}) = \frac{\exp (z_{y})}{\sum_{j \in V ∖ {v_{E O S}}} \exp (z_{j})}

标签 $y = v_{E O S}$ 时，保持原始 MLE 不变

直觉：当标签不是 EOS 时，EOS 不参与概率归一化，因此最大化标签概率时不会顺带压制 EOS 的概率。这保留了模型内在的 EOS 倾向，同时不影响对内容 token 的正常学习。

适用场景

进一步训练：对已有模型进行短暂微调即可减少幻觉
从头指令微调：在初始训练阶段就防止 EOS 能力被破坏

3.2 Scoring EOS Supervision（数据过滤策略）

作为训练目标修改的互补方案，从数据源头过滤掉那些会损害模型 EOS 决策能力的"有害"训练数据。

两个度量指标

使用参考模型 $θ^{*}$ （已微调的模型）对每条数据评分：

正向效应 $S_{p o s}$ ：衡量数据对 EOS 学习的正向贡献

S_{p o s} = - \sum_{i = 1}^{N} [y_{i} = v_{E O S}] \log (p_{v_{E O S}} | v, w_{<}; θ^{*})

当模型在应该预测 EOS 的位置预测失败（cross-entropy 高）时，训练反馈会加强 EOS 学习 → $S_{p o s}$ 越大越好。

负向效应 $S_{n e g}$ ：衡量数据对 EOS 倾向的抑制程度

S_{n e g} = - \sum_{i = 1}^{N} [y_{i} \neq v_{E O S}] \log (1 - p_{v_{E O S}} | v, w_{<}; θ^{*})

当模型在非 EOS 位置倾向于预测 EOS 时（ $p_{v_{E O S}}$ 大），这个倾向会被 MLE 不必要地抑制 → $S_{n e g}$ 越大说明负向抑制越严重。

综合评分：

S_{f i n a l} = S_{n e g} - S_{p o s}

$S_{f i n a l}$ 越高的数据越"有害"（负向抑制强且正向贡献弱），应当从训练集中移除。

直觉： $S_{f i n a l}$ 平衡了两个效应——既确保留下的数据能教模型何时该停（高 $S_{p o s}$ ），又避免留下会过度压制停止倾向的数据（低 $S_{n e g}$ ）。

四、实验结果

4.1 Selective EOS Supervision 结果

主实验（Table 1）： CHAIR 评估，500 张 MSCOCO 验证集图像

模型	方法	长度	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall ↑	FaithScore ↑
LLaVA-1.5 (7b)	原始	100.6	50.0	15.4	77.1	87.0
	VCD	100.4	48.6	14.9	77.3	87.1
	OPERA	98.6	47.8	14.6	76.8	88.0
	Ours (w/ Inst.)	76.2	36.8	11.3	74.3	88.4
	Ours (w/ Cap.)	79.7	40.2	12.3	75.7	89.3
LLaVA-1.5 (13b)	原始	100.9	47.2	13.0	77.3	87.6
	Ours (w/ Cap.)	85.1	36.8	11.4	75.3	88.8
LLaVA (7b)	原始	57.8	35.4	13.8	64.8	86.9
	Ours (w/ Cap.)	39.9	27.0	13.2	57.1	88.9
MiniGPTv2 (7b)	原始	87.2	38.0	11.1	66.3	85.6
	Ours (w/ Cap.)	62.2	27.0	9.8	66.6	89.9

使用完整 150K 指令数据微调 LLaVA-1.5 (7b)：CHAIR $_{S}$ -26.4%，CHAIR $_{I}$ -26.6%
仅使用 Detail23K 子集（23K 详细描述数据）即可获得显著效果，计算效率高
Recall 有轻微下降（-1.8% ~ -2.6%），但 FaithScore 一致上升，说明生成质量更高
全面超越 VCD 和 OPERA 等解码策略，且不增加推理开销

从头训练（Table 2）： LLaVA (7b) 在 LLaVA-Instruction-150K 上 3 epoch

训练损失	长度	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall ↑
MLE	57.8	35.4	13.8	64.8
Ours	36.1	24.2	11.6	55.9
Combined (1:1)	42.7	26.6	11.0	57.5

与 MLE 结合使用可在幻觉和 Recall 之间取得更好平衡。

4.2 Scoring EOS Supervision 数据过滤结果

Table 3： LLaVA (7b) 从头训练，3 epoch，QLoRA

过滤方式	训练数据长度	生成长度	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall ↑
原始数据	178.3	57.8	35.4	13.8	64.8
过滤 10%	171.7	63.7	35.4	14.0	64.5
过滤 20%	168.2	45.5	27.0	10.6	58.9
过滤 30%	166.7	49.2	29.4	11.7	58.0
随机过滤 20%	178.2	68.9	35.5	11.8	61.9
反向过滤 20%	176.8	100.6	46.6	18.9	68.6

过滤 20% 最"有害"的数据：CHAIR $_{S}$ -23.7%，CHAIR $_{I}$ -23.2%
反向过滤（移除最"无害"的数据）反而使幻觉大幅恶化：CHAIR $_{S}$ +31.6%
随机过滤无效，证明评分准则有效反映了数据对 EOS 能力的影响
关键发现：训练数据平均长度几乎不变（178.3 → 168.2），但模型生成长度从 57.8 → 45.5，说明效果不是来自改变长度分布，而是通过操控 EOS 监督信号

4.3 "被省略"的内容分析

对比原始模型和微调模型的输出，分析被"省略"的对象（Table 5）：

方法	省略的幻觉对象	省略的正确对象	幻觉率
Ours (w/ Inst.)	263	104	71.7%
Ours (w/ Cap.)	244	93	72.4%

近 3/4 被省略的对象是幻觉，说明方法精准地裁剪了不可靠的生成内容。

4.4 局限性：VQA 任务

在 MME 和 POPE 等 Yes/No 问答基准上（Table 7），方法未带来性能提升。这在预期之内——本方法聚焦于生成式任务中模型及时终止生成的能力，对分类导向的 VQA 任务机制不同。

五、局限性与未来方向

仅聚焦生成式任务：CHAIR/FaithScore 评估的是详细图像描述，未覆盖 VQA、视觉推理等任务
仅在多模态模型上验证：技术上可推广到纯文本 LLM（文本的"过度详细"幻觉同样存在）
治标层面有限：方法仅解决了"过度生成"这一幻觉源头，幻觉的其他根因（视觉编码器缺陷、语言先验偏置等）未被触及
Recall 下降：模型变得更保守，可能遗漏部分正确但不确定的视觉内容

六、个人思考

6.1 EOS 视角的独特性

这篇论文提供了一个非常优雅的视角——将幻觉问题部分归因于"模型不知道何时该停"。与项目中已有的幻觉缓解方法对比：

方法	核心切入点	干预阶段
LessIsMore	训练数据抑制了 EOS 决策能力	训练时
OPERA	注意力柱状聚合模式	解码时
ICD	指令扰动放大幻觉后对比	解码时
HALC	FOV 对比解码	解码时
mDPO	条件偏好优化	训练时
REVERIE	正负 rationale 反思微调	训练时

与解码策略（OPERA、VCD）的关键区别：LessIsMore 不增加推理开销，且与任何解码策略技术兼容，可叠加使用。

6.2 与 SENTINEL 的联系

SENTINEL 提出句子级早期干预——在幻觉首次出现处用 C-DPO 训练模型及早停止幻觉扩散。LessIsMore 的 EOS 分析为 SENTINEL 的设计提供了理论支撑：模型确实在每个句末评估是否应该终止，而非仅在最后一个位置。两者思路高度互补。

6.3 与 MMHalSnowball 的联系

MMHalSnowball 发现幻觉雪球效应——前轮幻觉误导后续生成。LessIsMore 的分析提供了另一角度的解释：模型在前期生成正确内容后，EOS 倾向已经上升（因为文本相对图像更完整），但被训练分布压制继续生成，导致后续内容质量下降。两者揭示了同一现象的不同侧面。

6.4 数据过滤策略的实用价值

$S_{f i n a l}$ 评分不仅可用于过滤有害数据，还为数据质量评估提供了一个新维度：训练数据的"详细程度"是否与模型能力匹配。这对 VLM 数据构建有指导意义——不是越详细越好，而是要与模型的视觉感知能力对齐。

6.5 方法简洁性

修改仅一行代码（softmax 排除 EOS），却有深刻的洞察支撑。这种"最小干预、最大收益"的设计哲学值得学习——深入理解模型行为后找到的杠杆点往往比复杂的工程方案更有效。

参考

OPERA (Huang et al., 2023)：注意力聚合模式 + Over-Trust Penalty，本文的解码策略基线
VCD (Leng et al., 2023)：视觉对比解码，通过噪声图像对比减少参数知识依赖
LLaVA-1.5 (Liu et al., 2023b)：主要实验模型，Improved Baselines with Visual Instruction Tuning
MMHalSnowball (2024)：多模态幻觉雪球效应，与本文的"生成越长幻觉越多"发现相呼应
SENTINEL (2025)：句子级早期干预，与本文的 EOS 句末决策分析互补

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

Less is More：从 EOS 决策视角缓解多模态幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 过度详细的训练数据：被忽视的幻觉来源 ​

1.2 理想情况 vs. 现实困境 ​

1.3 关键发现：模型内在具备 EOS 决策能力 ​

二、分析：EOS 决策机制 ​

2.1 EOS 预测的信息基础 ​

2.2 EOS 决策中的语义完整性比较 ​

2.3 核心洞察 ​

三、核心方法 ​

3.1 Selective EOS Supervision（训练目标修改） ​

问题分析 ​

解决方案 ​

适用场景 ​

3.2 Scoring EOS Supervision（数据过滤策略） ​

两个度量指标 ​

四、实验结果 ​

4.1 Selective EOS Supervision 结果 ​

4.2 Scoring EOS Supervision 数据过滤结果 ​

4.3 "被省略"的内容分析 ​

4.4 局限性：VQA 任务 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 EOS 视角的独特性 ​

6.2 与 SENTINEL 的联系 ​

6.3 与 MMHalSnowball 的联系 ​

6.4 数据过滤策略的实用价值 ​

6.5 方法简洁性 ​

参考 ​