DLC:通过动态 Logits 校准缓解大视觉-语言模型幻觉
论文:Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration
作者:Jiahe Chen, Jiaying He, Qian Shao, Qiyuan Chen, Jiahe Ying, Hongxia Xu, Jintai Chen, Jianwei Zheng*, Jian Wu*
机构:浙江大学、浙江工业大学、复旦大学、香港科技大学(广州)
发布时间:2025年6月
🔗 arXiv
分类标签:
LVLMHallucinationDecoding StrategyTraining-FreeCLIP
一句话总结
提出 Dynamic Logits Calibration (DLC),在解码时逐步用 CLIP 评估候选 token 的相对视觉优势 (RVA),相对于动态历史基线自适应调整 logits,无需额外前向传播即可高效缓解语义漂移导致的幻觉。
一、问题与动机
1.1 LVLM 幻觉的语义漂移根源
LVLM 在自回归生成过程中,随着序列增长会逐渐从视觉证据脱离,越来越依赖语言先验——即使初始生成锚定在视觉内容上,后期阶段也会因统计上更可能但视觉不一致的 token 被优先选择而产生幻觉。论文在 CHAIR 基准上的实验证实:幻觉集中出现在生成的 60%–80% 位置段,表明存在渐进式语义漂移。
1.2 现有 Training-Free 解码策略的三大局限
| 局限 | 代表方法 | 问题描述 |
|---|---|---|
| 静态约束 | VCD、ICD | 约束规则在整个生成过程中固定不变,无法适应后期的语义漂移 |
| 低推理效率 | VCD、OPERA | 需要多次前向传播或重新生成,推理速度下降约 50% |
| 刚性干预 | SID | 过于严格的视觉对齐要求扭曲了保真度与流畅性的平衡 |
1.3 关键观察
论文通过可视化分析(Figure 3)发现了一个核心现象:
在幻觉阶段,LVLM 常常给予语言上连贯但视觉上不一致的 token 高 logits 分数,即使存在视觉对齐更好的替代 token 也不被选择。
这一"高 logits 低视觉一致性"的错位,正是标准解码策略无法解决的——它们只关注语言模型的似然,缺乏实时、细粒度的视觉一致性检查。
二、核心方法
DLC 由两个模块组成:实时视觉对齐评估和自适应 Logits 调制。
2.1 实时视觉对齐评估 (Real-time Visual Alignment Assessment)
在每个解码步
历史上下文 Token 对齐 (HCTA): 衡量前
对最近
当前上下文 Token 对齐 (CCTA): 将候选 token
孤立 Token 对齐 (ITA): 候选 token 自身与图像的固有对齐度——衡量 token 的内在视觉相关性:
组合分数: 综合上下文贡献和内在相关性:
为什么同时需要 CCTA 和 ITA? 仅看 CCTA 可能被已漂移的上下文所偏置;仅看 ITA 则忽略了 token 在序列中的实际语义贡献。两者互补,提供更鲁棒的视觉适宜性评估。
2.2 自适应 Logits 调制 (Adaptive Logit Modulation)
三步将视觉信号整合到 token 选择中:
第一步:相对视觉优势 (RVA)。 衡量候选 token 相对于历史基线的视觉对齐改善/恶化程度:
RVA > 0 表示该 token 的视觉对齐优于近期平均水平,RVA < 0 则表示不如近期水平。分母
第二步:动态引导强度
- 当
高(视觉对齐良好)时, 接近 0,几乎不干预——避免破坏流畅性 - 当
低(语义漂移严重)时, 增大,强化视觉引导
直觉:当模型"走在正轨"时轻轻推;当模型"偏离轨道"时用力拉。
控制最大干预力度(默认 )。
第三步:Logits 调整。 乘性调制原始 logits:
其中
2.3 实现细节
- 视觉对齐分数使用 SigLIP 计算
- 历史窗口
,候选 token 数 - 3 步预热期后开始干预
- 单 A100 GPU 运行,无需额外前向传播
三、实验结果
3.1 CHAIR 评估
| Max Token | 方法 | LLaVA-1.5 CS↓/CI↓ | InstructBLIP CS↓/CI↓ | MiniGPT-4 CS↓/CI↓ | TPS↑ (LLaVA) |
|---|---|---|---|---|---|
| 64 | Sample | 25.2/9.11 | 31.3/11.3 | 25.4/9.74 | 17.4 |
| 64 | VCD | 24.9/8.15 | 27.8/9.56 | 22.5/8.27 | 8.92 |
| 64 | SID | 21.9/6.84 | 27.7/9.14 | 22.5/8.17 | 8.82 |
| 64 | DLC | 20.9/6.22 | 25.4/8.38 | 21.6/7.62 | 16.1 |
| 512 | Sample | 52.3/16.4 | 56.2/17.6 | 34.8/12.3 | 17.4 |
| 512 | VCD | 56.5/17.0 | 62.0/18.1 | 30.7/10.2 | 8.74 |
| 512 | SID | 51.1/14.4 | 58.9/16.8 | 30.7/10.2 | 8.61 |
| 512 | DLC | 38.4/10.8 | 51.8/15.2 | 29.4/9.62 | 14.7 |
关键观察:
- DLC 在 3 个模型上全面优于 VCD、ICD、SID
- 512 token 设置下优势尤为显著(LLaVA-1.5 CS 从 51.1 降至 38.4),因为 DLC 正是为对抗长序列中的语义漂移而设计
- 推理速度是 VCD/SID 的约 1.7–1.8×(16.1 vs 8.92 TPS),因为无需额外前向传播
3.2 GPT-4o 辅助评估
| 对比 | LLaVA-1.5 C↑/D↑ | InstructBLIP C↑/D↑ | MiniGPT-4 C↑/D↑ |
|---|---|---|---|
| Nucleus vs DLC | 5.34/6.18 vs 7.73/6.87 | 4.76/5.61 vs 7.38/6.75 | 5.15/5.73 vs 6.64/6.56 |
| VCD vs DLC | 5.55/6.38 vs 7.45/6.67 | 5.32/6.09 vs 6.94/6.54 | 5.55/5.97 vs 6.39/6.44 |
| OPERA vs DLC | 6.16/6.59 vs 7.10/6.67 | 6.02/6.17 vs 6.51/6.55 | 5.98/5.93 vs 6.16/6.45 |
| SID vs DLC | 5.69/6.54 vs 7.17/6.55 | 5.34/6.07 vs 6.89/6.62 | 5.55/6.05 vs 6.54/6.45 |
DLC 在正确性 (C) 上大幅领先所有基线(+1.0–2.4 分),同时详细度 (D) 也有提升或持平——说明减少幻觉的同时并未牺牲描述丰富度。
3.3 消融实验
自适应因子
超参数敏感性:
四、局限性与未来方向
- 不适用于极短回答:DLC 依赖生成上下文进行动态调整,对于"是/否"等极简回答(如 POPE 任务),缺乏足够上下文信息使其效果受限。
- 依赖 CLIP 模型质量:DLC 的校准精度上限由 CLIP 的视觉-语义对齐能力决定,对 CLIP 训练数据未覆盖的细粒度视觉概念可能失效。
- 仅验证 7B 模型:实验仅覆盖 LLaVA-1.5、InstructBLIP、MiniGPT-4(均为 7B),更大规模模型上的效果未知。
五、个人思考
5.1 与项目中其他论文的联系
与 HIME 的对比: HIME 和 DLC 都是 training-free 的幻觉缓解方法,但干预层面完全不同。HIME 作用于模型权重空间(编辑 MLP 权重),是一种"预处理"式修改;DLC 作用于解码输出空间(调整 logits),是一种"后处理"式修改。两者在技术路线上正交,理论上可以叠加使用——先用 HIME 编辑权重降低幻觉基线,再用 DLC 在解码时动态校准剩余漂移。
与 SENTINEL 的对比: SENTINEL 需要训练(自举采样 + C-DPO),通过句子级早期干预来防止幻觉。DLC 完全 training-free,在 token 级实时干预。SENTINEL 的优势是可以深层修改模型行为,DLC 的优势是零成本部署和灵活兼容各种模型。
5.2 CLIP 作为实时探针的优缺点
DLC 将 CLIP 用作解码时的"视觉对齐探针"是一个巧妙的设计——CLIP 的轻量推理使得逐 token 检查成为可能(仅需计算文本 embedding 的余弦相似度,无需额外前向传播 LLM)。但 CLIP 的文本编码器对单个 token 或短片段的语义理解有限(如 "hand" 这个 token 在不同上下文中的视觉含义差异很大),这可能限制了 ITA 分数的可靠性。论文通过 CCTA+ITA 组合来缓解这一问题。
5.3 与 VCD 的本质区别
VCD 通过对比"有视觉输入"和"无视觉输入/扰动视觉输入"的两次前向传播来抑制语言偏见。DLC 则引入外部 CLIP 模型作为独立的视觉对齐裁判。VCD 的问题是双倍前向传播成本;DLC 的问题是引入了对 CLIP 模型的额外依赖。从效果看,DLC 在长序列生成(512 token)中优势明显,正是因为其动态基线机制能随序列进展持续调整干预力度。
参考
- HIME (2026):层自适应 MLP 权重编辑缓解幻觉,training-free,权重空间干预
- SENTINEL (2025):句子级 C-DPO 早期干预幻觉,training-based
- VCD (CVPR 2024):对比原始和扰动视觉输入的解码策略,需双倍前向传播
- OPERA (CVPR 2024):过度信任惩罚 + 回溯分配,需额外计算开销
- SID (ICLR 2025):自省解码,LVLM 自身识别并抑制幻觉 token
- CLIP (ICML 2021):DLC 使用 SigLIP(CLIP 变体)作为视觉对齐探针