DLC：通过动态 Logits 校准缓解大视觉-语言模型幻觉

论文：Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration
作者：Jiahe Chen, Jiaying He, Qian Shao, Qiyuan Chen, Jiahe Ying, Hongxia Xu, Jintai Chen, Jianwei Zheng*, Jian Wu*
机构：浙江大学、浙江工业大学、复旦大学、香港科技大学（广州）
发布时间：2025年6月
🔗 arXiv
分类标签：LVLM Hallucination Decoding Strategy Training-Free CLIP

一句话总结

提出 Dynamic Logits Calibration (DLC)，在解码时逐步用 CLIP 评估候选 token 的相对视觉优势 (RVA)，相对于动态历史基线自适应调整 logits，无需额外前向传播即可高效缓解语义漂移导致的幻觉。

一、问题与动机

1.1 LVLM 幻觉的语义漂移根源

LVLM 在自回归生成过程中，随着序列增长会逐渐从视觉证据脱离，越来越依赖语言先验——即使初始生成锚定在视觉内容上，后期阶段也会因统计上更可能但视觉不一致的 token 被优先选择而产生幻觉。论文在 CHAIR 基准上的实验证实：幻觉集中出现在生成的 60%–80% 位置段，表明存在渐进式语义漂移。

1.2 现有 Training-Free 解码策略的三大局限

局限	代表方法	问题描述
静态约束	VCD、ICD	约束规则在整个生成过程中固定不变，无法适应后期的语义漂移
低推理效率	VCD、OPERA	需要多次前向传播或重新生成，推理速度下降约 50%
刚性干预	SID	过于严格的视觉对齐要求扭曲了保真度与流畅性的平衡

1.3 关键观察

论文通过可视化分析（Figure 3）发现了一个核心现象：

在幻觉阶段，LVLM 常常给予语言上连贯但视觉上不一致的 token 高 logits 分数，即使存在视觉对齐更好的替代 token 也不被选择。

这一"高 logits 低视觉一致性"的错位，正是标准解码策略无法解决的——它们只关注语言模型的似然，缺乏实时、细粒度的视觉一致性检查。

二、核心方法

DLC 由两个模块组成：实时视觉对齐评估和自适应 Logits 调制。

2.1 实时视觉对齐评估 (Real-time Visual Alignment Assessment)

在每个解码步 $t$ ，对 top- $k$ 候选 token ${c_{1}, \dots, c_{k}}$ 计算三个对齐分数：

历史上下文 Token 对齐 (HCTA)： 衡量前 $N$ 个 token 窗口与图像的对齐程度：

S_{t}^{HCTA} = CLIP (v, y_{t - N : t - 1})

对最近 $N$ 个 HCTA 分数做滑动平均，得到历史基线 ${\bar{B}}_{t}$ ，代表模型近期建立的视觉一致性水平。

当前上下文 Token 对齐 (CCTA)： 将候选 token $c_{i}$ 追加到上下文窗口后的对齐度——衡量该 token 在上下文中的视觉贡献：

S_{t, i}^{CCTA} = CLIP (v, y_{t - N : t - 1} \oplus c_{i})

孤立 Token 对齐 (ITA)： 候选 token 自身与图像的固有对齐度——衡量 token 的内在视觉相关性：

S_{t, i}^{ITA} = CLIP (v, c_{i})

组合分数： 综合上下文贡献和内在相关性：

S_{t, i}^{COMB} = \frac{S_{t, i}^{CCTA} + S_{t, i}^{ITA}}{2}

为什么同时需要 CCTA 和 ITA？ 仅看 CCTA 可能被已漂移的上下文所偏置；仅看 ITA 则忽略了 token 在序列中的实际语义贡献。两者互补，提供更鲁棒的视觉适宜性评估。

2.2 自适应 Logits 调制 (Adaptive Logit Modulation)

三步将视觉信号整合到 token 选择中：

第一步：相对视觉优势 (RVA)。 衡量候选 token 相对于历史基线的视觉对齐改善/恶化程度：

{RVA}_{t, i} = \frac{S_{t, i}^{COMB} - {\bar{B}}_{t}}{1 - {\bar{B}}_{t}}

RVA > 0 表示该 token 的视觉对齐优于近期平均水平，RVA < 0 则表示不如近期水平。分母 $1 - {\bar{B}}_{t}$ 做归一化，使 RVA 在不同基线水平下可比。

第二步：动态引导强度 $λ_{t}$ 。 自适应控制视觉干预的力度：

λ_{t} = α \cdot (1 - {\bar{B}}_{t})^{2}

当 ${\bar{B}}_{t}$ 高（视觉对齐良好）时， $(1 - {\bar{B}}_{t})^{2}$ 接近 0，几乎不干预——避免破坏流畅性
当 ${\bar{B}}_{t}$ 低（语义漂移严重）时， $(1 - {\bar{B}}_{t})^{2}$ 增大，强化视觉引导

直觉：当模型"走在正轨"时轻轻推；当模型"偏离轨道"时用力拉。 $α$ 控制最大干预力度（默认 $α = 3$ ）。

第三步：Logits 调整。 乘性调制原始 logits：

L_{t, i}^{'} = L_{t, i} \cdot \exp (λ_{t} \cdot σ ({RVA}_{t, i}))

其中 $σ (\cdot)$ 是 sigmoid 函数，将 RVA 映射到 $(0, 1)$ 。视觉对齐好的 token 的 logits 被放大，差的被相对抑制。

2.3 实现细节

视觉对齐分数使用 SigLIP 计算
历史窗口 $N = 8$ ，候选 token 数 $k = 50$
3 步预热期后开始干预
单 A100 GPU 运行，无需额外前向传播

三、实验结果

3.1 CHAIR 评估

Max Token	方法	LLaVA-1.5 CS↓/CI↓	InstructBLIP CS↓/CI↓	MiniGPT-4 CS↓/CI↓	TPS↑ (LLaVA)
64	Sample	25.2/9.11	31.3/11.3	25.4/9.74	17.4
64	VCD	24.9/8.15	27.8/9.56	22.5/8.27	8.92
64	SID	21.9/6.84	27.7/9.14	22.5/8.17	8.82
64	DLC	20.9/6.22	25.4/8.38	21.6/7.62	16.1
512	Sample	52.3/16.4	56.2/17.6	34.8/12.3	17.4
512	VCD	56.5/17.0	62.0/18.1	30.7/10.2	8.74
512	SID	51.1/14.4	58.9/16.8	30.7/10.2	8.61
512	DLC	38.4/10.8	51.8/15.2	29.4/9.62	14.7

关键观察：

DLC 在 3 个模型上全面优于 VCD、ICD、SID
512 token 设置下优势尤为显著（LLaVA-1.5 CS 从 51.1 降至 38.4），因为 DLC 正是为对抗长序列中的语义漂移而设计
推理速度是 VCD/SID 的约 1.7–1.8×（16.1 vs 8.92 TPS），因为无需额外前向传播

3.2 GPT-4o 辅助评估

对比	LLaVA-1.5 C↑/D↑	InstructBLIP C↑/D↑	MiniGPT-4 C↑/D↑
Nucleus vs DLC	5.34/6.18 vs 7.73/6.87	4.76/5.61 vs 7.38/6.75	5.15/5.73 vs 6.64/6.56
VCD vs DLC	5.55/6.38 vs 7.45/6.67	5.32/6.09 vs 6.94/6.54	5.55/5.97 vs 6.39/6.44
OPERA vs DLC	6.16/6.59 vs 7.10/6.67	6.02/6.17 vs 6.51/6.55	5.98/5.93 vs 6.16/6.45
SID vs DLC	5.69/6.54 vs 7.17/6.55	5.34/6.07 vs 6.89/6.62	5.55/6.05 vs 6.54/6.45

DLC 在正确性 (C) 上大幅领先所有基线（+1.0–2.4 分），同时详细度 (D) 也有提升或持平——说明减少幻觉的同时并未牺牲描述丰富度。

3.3 消融实验

自适应因子 $(1 - {\bar{B}}_{t})^{2}$ 的效果： 在三个模型上，加入自适应因子后正确性和详细度均提升。验证了"根据当前对齐状态动态调节干预力度"的设计合理性。

超参数敏感性： $α$ 最优值依赖模型和解码策略（Greedy 倾向低 $α$ ，Nucleus 倾向中-高 $α$ ），窗口大小 $N$ 在不同模型上表现各异，整体上 $α = 3$ 、 $N = 8$ 是稳健的默认值。

四、局限性与未来方向

不适用于极短回答：DLC 依赖生成上下文进行动态调整，对于"是/否"等极简回答（如 POPE 任务），缺乏足够上下文信息使其效果受限。
依赖 CLIP 模型质量：DLC 的校准精度上限由 CLIP 的视觉-语义对齐能力决定，对 CLIP 训练数据未覆盖的细粒度视觉概念可能失效。
仅验证 7B 模型：实验仅覆盖 LLaVA-1.5、InstructBLIP、MiniGPT-4（均为 7B），更大规模模型上的效果未知。

五、个人思考

5.1 与项目中其他论文的联系

与 HIME 的对比： HIME 和 DLC 都是 training-free 的幻觉缓解方法，但干预层面完全不同。HIME 作用于模型权重空间（编辑 MLP 权重），是一种"预处理"式修改；DLC 作用于解码输出空间（调整 logits），是一种"后处理"式修改。两者在技术路线上正交，理论上可以叠加使用——先用 HIME 编辑权重降低幻觉基线，再用 DLC 在解码时动态校准剩余漂移。

与 SENTINEL 的对比： SENTINEL 需要训练（自举采样 + C-DPO），通过句子级早期干预来防止幻觉。DLC 完全 training-free，在 token 级实时干预。SENTINEL 的优势是可以深层修改模型行为，DLC 的优势是零成本部署和灵活兼容各种模型。

5.2 CLIP 作为实时探针的优缺点

DLC 将 CLIP 用作解码时的"视觉对齐探针"是一个巧妙的设计——CLIP 的轻量推理使得逐 token 检查成为可能（仅需计算文本 embedding 的余弦相似度，无需额外前向传播 LLM）。但 CLIP 的文本编码器对单个 token 或短片段的语义理解有限（如 "hand" 这个 token 在不同上下文中的视觉含义差异很大），这可能限制了 ITA 分数的可靠性。论文通过 CCTA+ITA 组合来缓解这一问题。

5.3 与 VCD 的本质区别

VCD 通过对比"有视觉输入"和"无视觉输入/扰动视觉输入"的两次前向传播来抑制语言偏见。DLC 则引入外部 CLIP 模型作为独立的视觉对齐裁判。VCD 的问题是双倍前向传播成本；DLC 的问题是引入了对 CLIP 模型的额外依赖。从效果看，DLC 在长序列生成（512 token）中优势明显，正是因为其动态基线机制能随序列进展持续调整干预力度。

参考

HIME (2026)：层自适应 MLP 权重编辑缓解幻觉，training-free，权重空间干预
SENTINEL (2025)：句子级 C-DPO 早期干预幻觉，training-based
VCD (CVPR 2024)：对比原始和扰动视觉输入的解码策略，需双倍前向传播
OPERA (CVPR 2024)：过度信任惩罚 + 回溯分配，需额外计算开销
SID (ICLR 2025)：自省解码，LVLM 自身识别并抑制幻觉 token
CLIP (ICML 2021)：DLC 使用 SigLIP（CLIP 变体）作为视觉对齐探针

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

高效推理

推理增强

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

DLC：通过动态 Logits 校准缓解大视觉-语言模型幻觉

一句话总结

一、问题与动机

1.1 LVLM 幻觉的语义漂移根源

1.2 现有 Training-Free 解码策略的三大局限

1.3 关键观察

二、核心方法

2.1 实时视觉对齐评估 (Real-time Visual Alignment Assessment)

2.2 自适应 Logits 调制 (Adaptive Logit Modulation)

2.3 实现细节

三、实验结果

3.1 CHAIR 评估

3.2 GPT-4o 辅助评估

3.3 消融实验

四、局限性与未来方向

五、个人思考

5.1 与项目中其他论文的联系

5.2 CLIP 作为实时探针的优缺点

5.3 与 VCD 的本质区别

参考

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

DLC：通过动态 Logits 校准缓解大视觉-语言模型幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 LVLM 幻觉的语义漂移根源 ​

1.2 现有 Training-Free 解码策略的三大局限 ​

1.3 关键观察 ​

二、核心方法 ​

2.1 实时视觉对齐评估 (Real-time Visual Alignment Assessment) ​

2.2 自适应 Logits 调制 (Adaptive Logit Modulation) ​

2.3 实现细节 ​

三、实验结果 ​

3.1 CHAIR 评估 ​

3.2 GPT-4o 辅助评估 ​

3.3 消融实验 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 与项目中其他论文的联系 ​

5.2 CLIP 作为实时探针的优缺点 ​

5.3 与 VCD 的本质区别 ​

参考 ​

DLC：通过动态 Logits 校准缓解大视觉-语言模型幻觉

一句话总结

一、问题与动机

1.1 LVLM 幻觉的语义漂移根源

1.2 现有 Training-Free 解码策略的三大局限

1.3 关键观察

二、核心方法

2.1 实时视觉对齐评估 (Real-time Visual Alignment Assessment)

2.2 自适应 Logits 调制 (Adaptive Logit Modulation)

2.3 实现细节

三、实验结果

3.1 CHAIR 评估

3.2 GPT-4o 辅助评估

3.3 消融实验

四、局限性与未来方向

五、个人思考

5.1 与项目中其他论文的联系

5.2 CLIP 作为实时探针的优缺点

5.3 与 VCD 的本质区别

参考