FLB：首 Token Logit 增强缓解 LVLM 对象幻觉

论文：First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models
作者：Jiwoo Ha, Jongwoo Baek, Jinhyun So*
机构：DGIST EECS
发布时间：2026年4月
🔗 arXiv | 代码
分类标签：首 Token Logit 视觉锚定 长程衰减 "The" 效应 Training-Free 单次前向

一句话总结

观察到 LVLM 首 token 的 logit 天然携带最强视觉证据，提出 First Logit Boosting (FLB)——存储首 token logit 并以指数递增权重 $w_{t} = γ (1 - e^{- λ t})$ 叠加到后续解码步骤，通过直接视觉锚定（ground truth 词持续获得正向增益）和隐式视觉参照（"The" 效应）（提升以 "The" 开头的句子比例，促使模型回指已被视觉验证的实体而非引入新幻觉名词）双重机制缓解长程视觉衰减，training-free、单次前向、几乎零推理开销，LLaVA-1.5 AMBER CHAIR 从 11.5 降至 6.1、CHAIR 基准 CHAIR $_{S}$ 从 57.5 降至 43.5，全面超越 VCD/ICD/M3ID。

一、问题与动机

1.1 对象幻觉与长程视觉衰减

LVLM 在自回归生成过程中，随着文本序列增长，视觉 grounding 逐渐衰减而语言先验逐渐增强，这一现象被称为长程衰减（long-term decay）。其根本原因在于大多数 LVLM 使用的 RoPE 位置编码——图像 token 位于序列头部，随生成推进，文本 token 与图像 token 的相对位置距离持续增大，跨模态注意力不断减弱。

论文用条件概率指标（在 noun token 位置上分别统计 ground truth 词和 hallucination 词的概率）进行了实证分析（Fig. 2）：随着 token 位置从 0-19 增长到 80-99，所有 CD 方法的 ground truth 词概率持续下降而幻觉词概率持续上升，确认了长程衰减在现有方法中未被解决。

1.2 现有 Training-Free 方法的不足

方法类别	代表工作	局限
重训练方法	RLHF、位置编码修改	数据密集、计算昂贵
外部 grounding	Woodpecker、CLIP-guided	需要额外模型，效率低
对比解码（CD）	VCD、ICD、M3ID	双重前向传播推理速度减半 + 未解决长程衰减

核心空白：需要一种单次前向、零额外开销、且能对抗长程衰减的 training-free 方法。

1.3 关键观察：首 token logit 的视觉信息最强

首 token 紧邻图像 token 生成，RoPE 衰减最小，其 logit 分布中 ground truth 对象词与幻觉词的相对间隔最大（Fig. 3: ground truth 平均 logit 4.74 vs. hallucination 平均 logit 2.15）。这一观察直接启发了 FLB 的设计。

二、预备知识

2.1 LVLM 自回归解码

给定视觉输入 $v$ 、文本提示 $x$ 和已生成序列 $y_{< t}$ ：

y_{t} \sim p_{θ} (y_{t} ∣ v, x, y_{< t}) \propto \exp ({logit}_{θ} (y_{t} ∣ v, x, y_{< t}))

2.2 对比解码（以 VCD 为例）

VCD 用噪声图像 $v^{'}$ 构造"幻觉放大分布"并与原始分布做对比：

p_{VCD} (y ∣ v, v^{'}, x) = softmax [(1 + α) {logit}_{θ} (y ∣ v, x) - α {logit}_{θ} (y ∣ v^{'}, x)]

两个关键问题：(1) 每步需要两次前向传播（原始+扰动输入），推理速度减半；(2) 只在每步局部对比，无法累积维持视觉信号，长程衰减问题依旧。

三、核心方法

3.1 First Logit Boosting (FLB)

Step 1：存储首 token logit

在第一步解码时，将完整词表上的 logit 向量保存下来：

l_{0} = {logit}_{θ} (y ∣ x, v)

由于 $l_{0}$ 在整个生成过程中保持常量，只需计算一次，几乎零额外开销。

Step 2：逐步叠加

在后续每一步解码中，将 $l_{0}$ 以时变权重叠加到当前 logit 上：

y_{t} \sim softmax [{logit}_{θ} (y ∣ v, x, y_{< t}) + w_{t} \cdot l_{0}]

其中权重函数为指数递增形式：

w_{t} = γ (1 - e^{- λ t})

$γ$ ：最大缩放系数（控制增强上限）
$λ$ ：变化速率（控制多快达到上限）

用大白话说：生成序列越长，视觉衰减越严重，所以增强权重也随之增大——前期轻微增强避免干扰，后期强力增强对抗衰减。

Step 3：自适应可信度约束

由于首 token logit 并不对应当前解码步的语境，直接叠加可能推升不合理 token（例如在句中出现大写 "The"）。因此，FLB 借鉴 VCD 的思路，限制候选 token 集合：

V_{head} (y_{< t}) = {y_{t} \in V : p_{θ} (y_{t} ∣ v, x, y_{< t}) \geq β \cdot max_{w} p_{θ} (w ∣ v, x, y_{< t})}

p_{FLB} (y_{t} ∣ v, x) = 0, if y_{t} \notin V_{head} (y_{< t})

只有在原始分布中概率不低于峰值概率 $β$ 倍的 token 才有资格参与 FLB 增强后的采样，有效防止异常 token 被推升。

最终解码规则：

y_{t} \sim softmax [{logit}_{θ} (y ∣ v, x, y_{< t}) + w_{t} \cdot l_{0}], s.t. y_{t} \in V_{head} (y_{< t})

3.2 效果一：直接视觉锚定

首 token logit 天然保留了最强的视觉-语义关联：ground truth 对象词在 $l_{0}$ 中的分值显著高于幻觉词（Fig. 3 中 man=6.5 vs. woman=3.2, hat=5.8 vs. tree=2.0）。在每一步叠加 $l_{0}$ 相当于持续给 ground truth 对象词一个正向偏移，给幻觉词一个相对抑制——视觉信号被"锚定"在整个生成过程中。

3.3 效果二："The" 效应（隐式视觉参照）

首 token 通常是句首文章词（"The" > "In" > "A"，见 Fig. 4）。FLB 叠加首 token logit 后，模型生成以 "The" 开头的句子的概率大幅提升。而 "The" 作为定冠词，语义上暗示回指前文已提到的实体，而非引入新对象。这意味着：

句子级分析（Fig. 6）：以 "The" 开头的句子在长序列后期幻觉概率几乎不增长，而其他开头的句子幻觉概率急剧上升
词语级分析（Tab. 6-7）："The" 后跟名词的幻觉率（0.020）远低于 "A" 后跟名词的幻觉率（0.105），平均预测概率也更稳定（0.012 vs. 0.029 for hallucination）
熵分析（Tab. 8）："The" 后续名词的预测熵（2.001）显著低于 "A" 后续（3.190）和其他开头后续（2.433），表明 "The" 有效降低了预测不确定性

用大白话说：给模型一个 "The" 开头的暗示，等于告诉它"接下来说的东西是前面已经提到过的"，模型于是倾向于从已经被视觉验证过的实体中选取名词，而不是凭空编造新对象。这是一个意料之外但效果显著的机制。

3.4 超参数设置

论文通过网格搜索在 AMBER 上确定最优超参数：

参数	值	含义
$γ$	0.3	最大缩放系数
$λ$	0.05	指数递增速率
$β$	0.1	可信度约束阈值

权重函数对比实验（Tab. 12）：递增 > 递减 > 常数，与直觉一致——越往后衰减越严重，需要越大的增强。

四、实验结果

4.1 主实验

AMBER 基准（Tab. 1）：

方法	CHAIR↓	Cover↑	Hal↓	Cog↓
Baseline	11.5	50.1	48.9	4.6
VCD	9.9	51.2	43.4	4.6
ICD	9.1	51.2	40.6	4.3
M3ID	9.8	55.6	48.4	3.6
FLB	6.1	50.4	31.6	2.7

FLB 在 LLaVA-1.5 上 CHAIR 相对 baseline 降低 47%（11.5→6.1），Hal 降低 35%（48.9→31.6），且 Cover 几乎不变——不以牺牲 ground truth 覆盖率为代价。

CHAIR 基准（Tab. 2，LLaVA-1.5）：

方法	CHAIR $_{S}$ ↓	CHAIR $_{I}$ ↓	Recall↑
Baseline	57.5	17.3	73.3
VCD	57.0	16.3	76.7
ICD	53.0	14.6	76.7
FLB	43.5	12.0	73.6

CHAIR $_{S}$ 从 57.5 降至 43.5（-24%），CHAIR $_{I}$ 降至 12.0，同样保持 Recall 不下降。

4.2 推理速度（Fig. 5）

方法	Token 生成时间
Baseline	~0.014s
VCD/ICD/M3ID	~0.028-0.038s（约 2x 减速）
FLB	~0.014s（与 baseline 持平）

CD 方法需要双次前向传播导致推理速度减半，而 FLB 仅需一次前向 + 一次向量加法，推理开销可忽略。

4.3 消融实验（Tab. 5）

配置	CHAIR↓	Cover↑	Hal↓	Cog↓
Baseline	11.9	49.6	48.8	4.4
仅直接视觉锚定（mask 掉非名词 logit）	9.2	50.3	41.1	4.7
仅 "The" 效应（mask 掉非 "The" logit）	6.5	50.6	29.9	2.4
FLB (full)	5.7	50.3	30.7	2.4

两个关键发现：

两种效应均独立有效，且 "The" 效应贡献更大（CHAIR 6.5 vs. 9.2）
两种效应互补：联合使用进一步将 CHAIR 从 6.5 降至 5.7

4.4 超越 Caption 生成（Tab. 10-11）

MMHalBench：FLB 平均得分 2.230（Baseline 1.944, VCD 2.098），且随 token 长度增加优势更大（Fig. 7），直接验证了 FLB 对长程衰减的缓解
ConvBench（三轮对话）：FLB 在 1st/2nd turn 均超越 VCD，3rd turn 略低于 VCD 但仍优于 baseline

4.5 模型泛化性

FLB 在 LLaVA-1.5（MLP 投影对齐）、InstructBLIP（Q-Former 对齐）、mPLUG-Owl2 三种不同架构的 LVLM 上均一致有效（Tab. 1, 2, 18），表明方法对视觉-语言对齐方式无依赖。

4.6 $β$ 敏感性（Tab. 15）

$β = 0$ （无约束）：会出现 "The The The..." 的异常重复（Fig. 9），object score 71.2
$β = 0.1$ （最优）：异常完全消失，object score 72.1
$β$ 过大（0.4）：过度截断抑制 FLB 效果，score 回落至 72.0

4.7 判别任务（Tab. 19）

在 POPE 和 MME 上 FLB 效果等同于仅使用 $β$ 约束（β-only），说明 FLB 的增益主要体现在长序列生成场景中——这与方法设计目标一致。

五、局限性与未来方向

首 token logit 是静态的： $l_{0}$ 在整个生成过程中不变，无法适应不断演化的视觉语义需求。当后续生成需要关注图像中不同区域或新出现的视觉细节时，静态锚定可能不够灵活
不从根本上解决 RoPE 衰减：FLB 是"缓解"而非"消除"长程衰减，位置编码本身导致的注意力衰减仍然存在
对判别任务无增益：短输出场景下长程衰减不明显，FLB 的贡献主要集中在生成式任务
论文提出的未来方向：自适应 token 级视觉锚定（dynamic visual grounding per token）、衰减感知的位置编码机制

六、个人思考

6.1 方法极致简洁但洞察深刻

FLB 的实现极其简单——存储一个向量、每步做一次加法——但背后的两个洞察都很有价值：

首 token logit 是最佳视觉快照：这是 RoPE 位置编码与 LVLM 架构共同决定的结构性性质，而不是偶然的。图像 token 在序列最前，首 token 紧随其后，RoPE 衰减最小，这一观察具有普适性
"The" 效应的发现：一个纯粹的统计现象（定冠词引导回指）被用于缓解幻觉，这种"意外发现"在 NLP 中比较少见。不过需要注意，"The" 效应在其他语言（如中文、日文等无冠词语言）中不一定成立

6.2 与 VCD 系列方法的关系

FLB 和 VCD/ICD/M3ID 都是在 logit 空间做干预的 training-free 方法，但思路截然不同：

维度	CD 系列（VCD/ICD/M3ID）	FLB
策略	识别并减去幻觉成分	持续注入视觉信号
前向次数	2（原始+扰动）	1（仅原始）
时间维度	每步独立校正	全局累积增强
对长程衰减	局部有效但全局失效	通过递增权重专门对抗
推理开销	~2×	~1×

从这个对比来看，FLB 和 CD 方法其实是正交的——一个做"加法"（注入好信号），一个做"减法"（去除坏信号）。理论上两者可以组合，但论文没有做这个实验，值得探索。

6.3 "The" 效应的普适性存疑

"The" 效应本质是英语定冠词的语言学特性——"The X" 暗示 X 是已知信息，因此模型倾向于从上文已出现的（已被视觉验证的）实体中选取。但这个机制在以下场景中可能失效：

非英语语言：中文、日文等没有冠词系统
对话式交互：用户可能问及图像中新的、之前未被提到的对象
首句就幻觉：如果模型在前几句就引入了错误实体，"The" 反而会强化对错误实体的回指

6.4 与其他已读论文的联系

与 OPERA 的互补：OPERA 通过注意力聚合模式检测+beam search 回溯来"事后修正"幻觉，FLB 通过首 token 锚定来"事前预防"幻觉，两者可以叠加
与 FarSight 的关联：FarSight 同样关注 RoPE 导致的位置衰减问题，但通过修改因果掩码引入注意力寄存器来缓解。FLB 则从 logit 空间出发，不触碰注意力机制。两种方法从不同层面应对同一问题
与 MemVR 的对比：MemVR 在中间层重注入视觉 token，FLB 在 logit 输出层注入首 token 信息。MemVR 更"深层"但需要 1.04× 延迟，FLB 更"表层"但几乎零开销

参考

VCD（2023）：视觉对比解码的开创性工作，FLB 的主要对比基线和自适应可信度约束的来源
ICD（2024）：指令对比解码，通过扰动指令而非图像来放大幻觉
M3ID（2024）：多模态互信息解码，另一种 CD 变体
FarSight（2025）：同样关注 RoPE 位置衰减导致的幻觉，但从注意力机制层面解决
OPERA（2024）：注意力聚合模式检测，另一种 training-free 幻觉缓解方法

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

FLB：首 Token Logit 增强缓解 LVLM 对象幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 对象幻觉与长程视觉衰减 ​

1.2 现有 Training-Free 方法的不足 ​

1.3 关键观察：首 token logit 的视觉信息最强 ​

二、预备知识 ​

2.1 LVLM 自回归解码 ​

2.2 对比解码（以 VCD 为例） ​

三、核心方法 ​

3.1 First Logit Boosting (FLB) ​

3.2 效果一：直接视觉锚定 ​

3.3 效果二："The" 效应（隐式视觉参照） ​

3.4 超参数设置 ​

四、实验结果 ​

4.1 主实验 ​

4.2 推理速度（Fig. 5） ​

4.3 消融实验（Tab. 5） ​

4.4 超越 Caption 生成（Tab. 10-11） ​

4.5 模型泛化性 ​

4.6 β 敏感性（Tab. 15） ​

4.7 判别任务（Tab. 19） ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 方法极致简洁但洞察深刻 ​

6.2 与 VCD 系列方法的关系 ​

6.3 "The" 效应的普适性存疑 ​

6.4 与其他已读论文的联系 ​

参考 ​