Skip to content

FLB:首 Token Logit 增强缓解 LVLM 对象幻觉

论文First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models

作者:Jiwoo Ha, Jongwoo Baek, Jinhyun So*

机构:DGIST EECS

发布时间:2026年4月

🔗 arXiv | 代码

分类标签首 Token Logit 视觉锚定 长程衰减 "The" 效应 Training-Free 单次前向


一句话总结

观察到 LVLM 首 token 的 logit 天然携带最强视觉证据,提出 First Logit Boosting (FLB)——存储首 token logit 并以指数递增权重 wt=γ(1eλt) 叠加到后续解码步骤,通过直接视觉锚定(ground truth 词持续获得正向增益)和隐式视觉参照("The" 效应)(提升以 "The" 开头的句子比例,促使模型回指已被视觉验证的实体而非引入新幻觉名词)双重机制缓解长程视觉衰减,training-free、单次前向、几乎零推理开销,LLaVA-1.5 AMBER CHAIR 从 11.5 降至 6.1、CHAIR 基准 CHAIRS 从 57.5 降至 43.5,全面超越 VCD/ICD/M3ID。


一、问题与动机

1.1 对象幻觉与长程视觉衰减

LVLM 在自回归生成过程中,随着文本序列增长,视觉 grounding 逐渐衰减而语言先验逐渐增强,这一现象被称为长程衰减(long-term decay)。其根本原因在于大多数 LVLM 使用的 RoPE 位置编码——图像 token 位于序列头部,随生成推进,文本 token 与图像 token 的相对位置距离持续增大,跨模态注意力不断减弱。

论文用条件概率指标(在 noun token 位置上分别统计 ground truth 词和 hallucination 词的概率)进行了实证分析(Fig. 2):随着 token 位置从 0-19 增长到 80-99,所有 CD 方法的 ground truth 词概率持续下降而幻觉词概率持续上升,确认了长程衰减在现有方法中未被解决。

1.2 现有 Training-Free 方法的不足

方法类别代表工作局限
重训练方法RLHF、位置编码修改数据密集、计算昂贵
外部 groundingWoodpecker、CLIP-guided需要额外模型,效率低
对比解码(CD)VCD、ICD、M3ID双重前向传播推理速度减半 + 未解决长程衰减

核心空白:需要一种单次前向、零额外开销、且能对抗长程衰减的 training-free 方法。

1.3 关键观察:首 token logit 的视觉信息最强

首 token 紧邻图像 token 生成,RoPE 衰减最小,其 logit 分布中 ground truth 对象词与幻觉词的相对间隔最大(Fig. 3: ground truth 平均 logit 4.74 vs. hallucination 平均 logit 2.15)。这一观察直接启发了 FLB 的设计。


二、预备知识

2.1 LVLM 自回归解码

给定视觉输入 v、文本提示 x 和已生成序列 y<t

ytpθ(ytv,x,y<t)exp(logitθ(ytv,x,y<t))

2.2 对比解码(以 VCD 为例)

VCD 用噪声图像 v 构造"幻觉放大分布"并与原始分布做对比:

pVCD(yv,v,x)=softmax[(1+α)logitθ(yv,x)αlogitθ(yv,x)]

两个关键问题:(1) 每步需要两次前向传播(原始+扰动输入),推理速度减半;(2) 只在每步局部对比,无法累积维持视觉信号,长程衰减问题依旧。


三、核心方法

3.1 First Logit Boosting (FLB)

Step 1:存储首 token logit

在第一步解码时,将完整词表上的 logit 向量保存下来:

l0=logitθ(yx,v)

由于 l0 在整个生成过程中保持常量,只需计算一次,几乎零额外开销

Step 2:逐步叠加

在后续每一步解码中,将 l0 以时变权重叠加到当前 logit 上:

ytsoftmax[logitθ(yv,x,y<t)+wtl0]

其中权重函数为指数递增形式:

wt=γ(1eλt)
  • γ:最大缩放系数(控制增强上限)
  • λ:变化速率(控制多快达到上限)

用大白话说:生成序列越长,视觉衰减越严重,所以增强权重也随之增大——前期轻微增强避免干扰,后期强力增强对抗衰减。

Step 3:自适应可信度约束

由于首 token logit 并不对应当前解码步的语境,直接叠加可能推升不合理 token(例如在句中出现大写 "The")。因此,FLB 借鉴 VCD 的思路,限制候选 token 集合:

Vhead(y<t)={ytV:pθ(ytv,x,y<t)βmaxwpθ(wv,x,y<t)}pFLB(ytv,x)=0,if ytVhead(y<t)

只有在原始分布中概率不低于峰值概率 β的 token 才有资格参与 FLB 增强后的采样,有效防止异常 token 被推升。

最终解码规则

ytsoftmax[logitθ(yv,x,y<t)+wtl0],s.t. ytVhead(y<t)

3.2 效果一:直接视觉锚定

首 token logit 天然保留了最强的视觉-语义关联:ground truth 对象词在 l0 中的分值显著高于幻觉词(Fig. 3 中 man=6.5 vs. woman=3.2, hat=5.8 vs. tree=2.0)。在每一步叠加 l0 相当于持续给 ground truth 对象词一个正向偏移,给幻觉词一个相对抑制——视觉信号被"锚定"在整个生成过程中

3.3 效果二:"The" 效应(隐式视觉参照)

首 token 通常是句首文章词("The" > "In" > "A",见 Fig. 4)。FLB 叠加首 token logit 后,模型生成以 "The" 开头的句子的概率大幅提升。而 "The" 作为定冠词,语义上暗示回指前文已提到的实体,而非引入新对象。这意味着:

  1. 句子级分析(Fig. 6):以 "The" 开头的句子在长序列后期幻觉概率几乎不增长,而其他开头的句子幻觉概率急剧上升
  2. 词语级分析(Tab. 6-7):"The" 后跟名词的幻觉率(0.020)远低于 "A" 后跟名词的幻觉率(0.105),平均预测概率也更稳定(0.012 vs. 0.029 for hallucination)
  3. 熵分析(Tab. 8):"The" 后续名词的预测熵(2.001)显著低于 "A" 后续(3.190)和其他开头后续(2.433),表明 "The" 有效降低了预测不确定性

用大白话说:给模型一个 "The" 开头的暗示,等于告诉它"接下来说的东西是前面已经提到过的",模型于是倾向于从已经被视觉验证过的实体中选取名词,而不是凭空编造新对象。这是一个意料之外但效果显著的机制。

3.4 超参数设置

论文通过网格搜索在 AMBER 上确定最优超参数:

参数含义
γ0.3最大缩放系数
λ0.05指数递增速率
β0.1可信度约束阈值

权重函数对比实验(Tab. 12):递增 > 递减 > 常数,与直觉一致——越往后衰减越严重,需要越大的增强。


四、实验结果

4.1 主实验

AMBER 基准(Tab. 1):

方法CHAIR↓Cover↑Hal↓Cog↓
Baseline11.550.148.94.6
VCD9.951.243.44.6
ICD9.151.240.64.3
M3ID9.855.648.43.6
FLB6.150.431.62.7

FLB 在 LLaVA-1.5 上 CHAIR 相对 baseline 降低 47%(11.5→6.1),Hal 降低 35%(48.9→31.6),且 Cover 几乎不变——不以牺牲 ground truth 覆盖率为代价

CHAIR 基准(Tab. 2,LLaVA-1.5):

方法CHAIRSCHAIRIRecall↑
Baseline57.517.373.3
VCD57.016.376.7
ICD53.014.676.7
FLB43.512.073.6

CHAIRS 从 57.5 降至 43.5(-24%),CHAIRI 降至 12.0,同样保持 Recall 不下降。

4.2 推理速度(Fig. 5)

方法Token 生成时间
Baseline~0.014s
VCD/ICD/M3ID~0.028-0.038s(约 2x 减速)
FLB~0.014s(与 baseline 持平

CD 方法需要双次前向传播导致推理速度减半,而 FLB 仅需一次前向 + 一次向量加法,推理开销可忽略

4.3 消融实验(Tab. 5)

配置CHAIR↓Cover↑Hal↓Cog↓
Baseline11.949.648.84.4
仅直接视觉锚定(mask 掉非名词 logit)9.250.341.14.7
仅 "The" 效应(mask 掉非 "The" logit)6.550.629.92.4
FLB (full)5.750.330.72.4

两个关键发现:

  1. 两种效应均独立有效,且 "The" 效应贡献更大(CHAIR 6.5 vs. 9.2)
  2. 两种效应互补:联合使用进一步将 CHAIR 从 6.5 降至 5.7

4.4 超越 Caption 生成(Tab. 10-11)

  • MMHalBench:FLB 平均得分 2.230(Baseline 1.944, VCD 2.098),且随 token 长度增加优势更大(Fig. 7),直接验证了 FLB 对长程衰减的缓解
  • ConvBench(三轮对话):FLB 在 1st/2nd turn 均超越 VCD,3rd turn 略低于 VCD 但仍优于 baseline

4.5 模型泛化性

FLB 在 LLaVA-1.5(MLP 投影对齐)、InstructBLIP(Q-Former 对齐)、mPLUG-Owl2 三种不同架构的 LVLM 上均一致有效(Tab. 1, 2, 18),表明方法对视觉-语言对齐方式无依赖。

4.6 β 敏感性(Tab. 15)

  • β=0(无约束):会出现 "The The The..." 的异常重复(Fig. 9),object score 71.2
  • β=0.1(最优):异常完全消失,object score 72.1
  • β 过大(0.4):过度截断抑制 FLB 效果,score 回落至 72.0

4.7 判别任务(Tab. 19)

在 POPE 和 MME 上 FLB 效果等同于仅使用 β 约束(β-only),说明 FLB 的增益主要体现在长序列生成场景中——这与方法设计目标一致。


五、局限性与未来方向

  1. 首 token logit 是静态的l0 在整个生成过程中不变,无法适应不断演化的视觉语义需求。当后续生成需要关注图像中不同区域或新出现的视觉细节时,静态锚定可能不够灵活
  2. 不从根本上解决 RoPE 衰减:FLB 是"缓解"而非"消除"长程衰减,位置编码本身导致的注意力衰减仍然存在
  3. 对判别任务无增益:短输出场景下长程衰减不明显,FLB 的贡献主要集中在生成式任务
  4. 论文提出的未来方向:自适应 token 级视觉锚定(dynamic visual grounding per token)、衰减感知的位置编码机制

六、个人思考

6.1 方法极致简洁但洞察深刻

FLB 的实现极其简单——存储一个向量、每步做一次加法——但背后的两个洞察都很有价值:

  • 首 token logit 是最佳视觉快照:这是 RoPE 位置编码与 LVLM 架构共同决定的结构性性质,而不是偶然的。图像 token 在序列最前,首 token 紧随其后,RoPE 衰减最小,这一观察具有普适性
  • "The" 效应的发现:一个纯粹的统计现象(定冠词引导回指)被用于缓解幻觉,这种"意外发现"在 NLP 中比较少见。不过需要注意,"The" 效应在其他语言(如中文、日文等无冠词语言)中不一定成立

6.2 与 VCD 系列方法的关系

FLB 和 VCD/ICD/M3ID 都是在 logit 空间做干预的 training-free 方法,但思路截然不同:

维度CD 系列(VCD/ICD/M3ID)FLB
策略识别并减去幻觉成分持续注入视觉信号
前向次数2(原始+扰动)1(仅原始)
时间维度每步独立校正全局累积增强
对长程衰减局部有效但全局失效通过递增权重专门对抗
推理开销~2×~1×

从这个对比来看,FLB 和 CD 方法其实是正交的——一个做"加法"(注入好信号),一个做"减法"(去除坏信号)。理论上两者可以组合,但论文没有做这个实验,值得探索。

6.3 "The" 效应的普适性存疑

"The" 效应本质是英语定冠词的语言学特性——"The X" 暗示 X 是已知信息,因此模型倾向于从上文已出现的(已被视觉验证的)实体中选取。但这个机制在以下场景中可能失效:

  • 非英语语言:中文、日文等没有冠词系统
  • 对话式交互:用户可能问及图像中新的、之前未被提到的对象
  • 首句就幻觉:如果模型在前几句就引入了错误实体,"The" 反而会强化对错误实体的回指

6.4 与其他已读论文的联系

  • 与 OPERA 的互补:OPERA 通过注意力聚合模式检测+beam search 回溯来"事后修正"幻觉,FLB 通过首 token 锚定来"事前预防"幻觉,两者可以叠加
  • 与 FarSight 的关联:FarSight 同样关注 RoPE 导致的位置衰减问题,但通过修改因果掩码引入注意力寄存器来缓解。FLB 则从 logit 空间出发,不触碰注意力机制。两种方法从不同层面应对同一问题
  • 与 MemVR 的对比:MemVR 在中间层重注入视觉 token,FLB 在 logit 输出层注入首 token 信息。MemVR 更"深层"但需要 1.04× 延迟,FLB 更"表层"但几乎零开销

参考

  • VCD(2023):视觉对比解码的开创性工作,FLB 的主要对比基线和自适应可信度约束的来源
  • ICD(2024):指令对比解码,通过扰动指令而非图像来放大幻觉
  • M3ID(2024):多模态互信息解码,另一种 CD 变体
  • FarSight(2025):同样关注 RoPE 位置衰减导致的幻觉,但从注意力机制层面解决
  • OPERA(2024):注意力聚合模式检测,另一种 training-free 幻觉缓解方法