Skip to content

DLC:通过动态 Logits 校准缓解大视觉-语言模型幻觉

论文Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration

作者:Jiahe Chen, Jiaying He, Qian Shao, Qiyuan Chen, Jiahe Ying, Hongxia Xu, Jintai Chen, Jianwei Zheng*, Jian Wu*

机构:浙江大学、浙江工业大学、复旦大学、香港科技大学(广州)

发布时间:2025年6月

🔗 arXiv

分类标签LVLM Hallucination Decoding Strategy Training-Free CLIP


一句话总结

提出 Dynamic Logits Calibration (DLC),在解码时逐步用 CLIP 评估候选 token 的相对视觉优势 (RVA),相对于动态历史基线自适应调整 logits,无需额外前向传播即可高效缓解语义漂移导致的幻觉。


一、问题与动机

1.1 LVLM 幻觉的语义漂移根源

LVLM 在自回归生成过程中,随着序列增长会逐渐从视觉证据脱离,越来越依赖语言先验——即使初始生成锚定在视觉内容上,后期阶段也会因统计上更可能但视觉不一致的 token 被优先选择而产生幻觉。论文在 CHAIR 基准上的实验证实:幻觉集中出现在生成的 60%–80% 位置段,表明存在渐进式语义漂移。

1.2 现有 Training-Free 解码策略的三大局限

局限代表方法问题描述
静态约束VCD、ICD约束规则在整个生成过程中固定不变,无法适应后期的语义漂移
低推理效率VCD、OPERA需要多次前向传播或重新生成,推理速度下降约 50%
刚性干预SID过于严格的视觉对齐要求扭曲了保真度与流畅性的平衡

1.3 关键观察

论文通过可视化分析(Figure 3)发现了一个核心现象:

在幻觉阶段,LVLM 常常给予语言上连贯但视觉上不一致的 token 高 logits 分数,即使存在视觉对齐更好的替代 token 也不被选择。

这一"高 logits 低视觉一致性"的错位,正是标准解码策略无法解决的——它们只关注语言模型的似然,缺乏实时、细粒度的视觉一致性检查。


二、核心方法

DLC 由两个模块组成:实时视觉对齐评估自适应 Logits 调制

2.1 实时视觉对齐评估 (Real-time Visual Alignment Assessment)

在每个解码步 t,对 top-k 候选 token {c1,,ck} 计算三个对齐分数:

历史上下文 Token 对齐 (HCTA): 衡量前 N 个 token 窗口与图像的对齐程度:

StHCTA=CLIP(v,ytN:t1)

对最近 N 个 HCTA 分数做滑动平均,得到历史基线 B¯t,代表模型近期建立的视觉一致性水平。

当前上下文 Token 对齐 (CCTA): 将候选 token ci 追加到上下文窗口后的对齐度——衡量该 token 在上下文中的视觉贡献:

St,iCCTA=CLIP(v,ytN:t1ci)

孤立 Token 对齐 (ITA): 候选 token 自身与图像的固有对齐度——衡量 token 的内在视觉相关性:

St,iITA=CLIP(v,ci)

组合分数: 综合上下文贡献和内在相关性:

St,iCOMB=St,iCCTA+St,iITA2

为什么同时需要 CCTA 和 ITA? 仅看 CCTA 可能被已漂移的上下文所偏置;仅看 ITA 则忽略了 token 在序列中的实际语义贡献。两者互补,提供更鲁棒的视觉适宜性评估。

2.2 自适应 Logits 调制 (Adaptive Logit Modulation)

三步将视觉信号整合到 token 选择中:

第一步:相对视觉优势 (RVA)。 衡量候选 token 相对于历史基线的视觉对齐改善/恶化程度:

RVAt,i=St,iCOMBB¯t1B¯t

RVA > 0 表示该 token 的视觉对齐优于近期平均水平,RVA < 0 则表示不如近期水平。分母 1B¯t 做归一化,使 RVA 在不同基线水平下可比。

第二步:动态引导强度 λt 自适应控制视觉干预的力度:

λt=α(1B¯t)2
  • B¯t 高(视觉对齐良好)时,(1B¯t)2 接近 0,几乎不干预——避免破坏流畅性
  • B¯t 低(语义漂移严重)时,(1B¯t)2 增大,强化视觉引导

直觉:当模型"走在正轨"时轻轻推;当模型"偏离轨道"时用力拉。α 控制最大干预力度(默认 α=3)。

第三步:Logits 调整。 乘性调制原始 logits:

Lt,i=Lt,iexp(λtσ(RVAt,i))

其中 σ() 是 sigmoid 函数,将 RVA 映射到 (0,1)。视觉对齐好的 token 的 logits 被放大,差的被相对抑制。

2.3 实现细节

  • 视觉对齐分数使用 SigLIP 计算
  • 历史窗口 N=8,候选 token 数 k=50
  • 3 步预热期后开始干预
  • 单 A100 GPU 运行,无需额外前向传播

三、实验结果

3.1 CHAIR 评估

Max Token方法LLaVA-1.5 CS↓/CI↓InstructBLIP CS↓/CI↓MiniGPT-4 CS↓/CI↓TPS↑ (LLaVA)
64Sample25.2/9.1131.3/11.325.4/9.7417.4
64VCD24.9/8.1527.8/9.5622.5/8.278.92
64SID21.9/6.8427.7/9.1422.5/8.178.82
64DLC20.9/6.2225.4/8.3821.6/7.6216.1
512Sample52.3/16.456.2/17.634.8/12.317.4
512VCD56.5/17.062.0/18.130.7/10.28.74
512SID51.1/14.458.9/16.830.7/10.28.61
512DLC38.4/10.851.8/15.229.4/9.6214.7

关键观察:

  • DLC 在 3 个模型上全面优于 VCD、ICD、SID
  • 512 token 设置下优势尤为显著(LLaVA-1.5 CS 从 51.1 降至 38.4),因为 DLC 正是为对抗长序列中的语义漂移而设计
  • 推理速度是 VCD/SID 的约 1.7–1.8×(16.1 vs 8.92 TPS),因为无需额外前向传播

3.2 GPT-4o 辅助评估

对比LLaVA-1.5 C↑/D↑InstructBLIP C↑/D↑MiniGPT-4 C↑/D↑
Nucleus vs DLC5.34/6.18 vs 7.73/6.874.76/5.61 vs 7.38/6.755.15/5.73 vs 6.64/6.56
VCD vs DLC5.55/6.38 vs 7.45/6.675.32/6.09 vs 6.94/6.545.55/5.97 vs 6.39/6.44
OPERA vs DLC6.16/6.59 vs 7.10/6.676.02/6.17 vs 6.51/6.555.98/5.93 vs 6.16/6.45
SID vs DLC5.69/6.54 vs 7.17/6.555.34/6.07 vs 6.89/6.625.55/6.05 vs 6.54/6.45

DLC 在正确性 (C) 上大幅领先所有基线(+1.0–2.4 分),同时详细度 (D) 也有提升或持平——说明减少幻觉的同时并未牺牲描述丰富度。

3.3 消融实验

自适应因子 (1B¯t)2 的效果: 在三个模型上,加入自适应因子后正确性和详细度均提升。验证了"根据当前对齐状态动态调节干预力度"的设计合理性。

超参数敏感性: α 最优值依赖模型和解码策略(Greedy 倾向低 α,Nucleus 倾向中-高 α),窗口大小 N 在不同模型上表现各异,整体上 α=3N=8 是稳健的默认值。


四、局限性与未来方向

  1. 不适用于极短回答:DLC 依赖生成上下文进行动态调整,对于"是/否"等极简回答(如 POPE 任务),缺乏足够上下文信息使其效果受限。
  2. 依赖 CLIP 模型质量:DLC 的校准精度上限由 CLIP 的视觉-语义对齐能力决定,对 CLIP 训练数据未覆盖的细粒度视觉概念可能失效。
  3. 仅验证 7B 模型:实验仅覆盖 LLaVA-1.5、InstructBLIP、MiniGPT-4(均为 7B),更大规模模型上的效果未知。

五、个人思考

5.1 与项目中其他论文的联系

与 HIME 的对比: HIME 和 DLC 都是 training-free 的幻觉缓解方法,但干预层面完全不同。HIME 作用于模型权重空间(编辑 MLP 权重),是一种"预处理"式修改;DLC 作用于解码输出空间(调整 logits),是一种"后处理"式修改。两者在技术路线上正交,理论上可以叠加使用——先用 HIME 编辑权重降低幻觉基线,再用 DLC 在解码时动态校准剩余漂移。

与 SENTINEL 的对比: SENTINEL 需要训练(自举采样 + C-DPO),通过句子级早期干预来防止幻觉。DLC 完全 training-free,在 token 级实时干预。SENTINEL 的优势是可以深层修改模型行为,DLC 的优势是零成本部署和灵活兼容各种模型。

5.2 CLIP 作为实时探针的优缺点

DLC 将 CLIP 用作解码时的"视觉对齐探针"是一个巧妙的设计——CLIP 的轻量推理使得逐 token 检查成为可能(仅需计算文本 embedding 的余弦相似度,无需额外前向传播 LLM)。但 CLIP 的文本编码器对单个 token 或短片段的语义理解有限(如 "hand" 这个 token 在不同上下文中的视觉含义差异很大),这可能限制了 ITA 分数的可靠性。论文通过 CCTA+ITA 组合来缓解这一问题。

5.3 与 VCD 的本质区别

VCD 通过对比"有视觉输入"和"无视觉输入/扰动视觉输入"的两次前向传播来抑制语言偏见。DLC 则引入外部 CLIP 模型作为独立的视觉对齐裁判。VCD 的问题是双倍前向传播成本;DLC 的问题是引入了对 CLIP 模型的额外依赖。从效果看,DLC 在长序列生成(512 token)中优势明显,正是因为其动态基线机制能随序列进展持续调整干预力度。


参考

  • HIME (2026):层自适应 MLP 权重编辑缓解幻觉,training-free,权重空间干预
  • SENTINEL (2025):句子级 C-DPO 早期干预幻觉,training-based
  • VCD (CVPR 2024):对比原始和扰动视觉输入的解码策略,需双倍前向传播
  • OPERA (CVPR 2024):过度信任惩罚 + 回溯分配,需额外计算开销
  • SID (ICLR 2025):自省解码,LVLM 自身识别并抑制幻觉 token
  • CLIP (ICML 2021):DLC 使用 SigLIP(CLIP 变体)作为视觉对齐探针