Skip to content

TAF:Token 非对称过滤缓解大视觉-语言模型幻觉

论文Taming the Phantom: Token-Asymmetric Filtering for Hallucination Mitigation in Large Vision-Language Models

作者:Shuyi Ouyang, Hongyi Wang, Gongfan Fang, Xinyin Ma, Lanfen Lin*, Xinchao Wang*

机构:浙江大学、新加坡国立大学

发布时间:2026年(AAAI 2026

🔗 论文

分类标签LVLM Hallucination Attention Modulation Training-Free Plug-and-Play Token-Level Analysis


一句话总结

通过 saliency 分析发现 LVLM 幻觉的两个 token 级根因——少数幻影 token (phantom tokens) 在视觉活跃层以数倍于视觉 token 的影响力误导视觉理解、关键锚点 token (anchor tokens) 的视觉证据未被充分利用——提出 Token-Asymmetric Filtering (TAF),在视觉活跃层的注意力图中隔离幻影 token 的 T2V 影响强调锚点 token 的 V2V 影响,training-free 即插即用,在 LLaVA-1.5/Qwen-VL/Qwen2.5-VL/MiniGPT-4/mPLUG-Owl2 上全面 SOTA。


一、问题与动机

1.1 LVLM 幻觉:模态级分析的不足

现有研究多从模态级视角分析幻觉——视觉与语言模态之间的不平衡或错位。但这种粗粒度的分析忽略了 token 级别的精细行为,限制了缓解策略的灵活性和有效性。

1.2 Token 级别的两个关键发现

论文通过 saliency 分析(基于注意力权重与梯度的逐元素乘积)对 LLaVA-1.5-7B 进行逐层、逐 token 观察,发现:

发现 1:幻影 token (Phantom Tokens)

在幻觉场景中,少数文本 token 在视觉活跃层(V2V 影响显著的中间层)中的 T2V 影响力异常高,数倍于视觉 token 的平均 V2V 影响。这些 token 有可能将错误的语言先验注入视觉理解——例如将"roof"误导为"ceiling"。

发现 2:锚点 token (Anchor Tokens)

少数视觉 token 承载了解答查询所需的关键视觉证据(在 saliency 图中对应高亮区域)。模型通常知道"往哪里看",但当视觉注意力分散或错位时,这些关键视觉线索未被充分聚焦,导致幻觉。

1.3 Token 级非对称性

两个发现揭示了一种 token 级非对称性

  1. 语言模态:虽然提供推理灵活性,但少数幻影 token 能不成比例地干扰视觉理解
  2. 视觉模态:虽然提供事实基础,但仅少数锚点 token 承载回答所需的核心视觉证据

1.4 现有方法的不足

方法类别代表方法局限
偏好微调RLHF-V, BPO需要大规模标注数据和训练资源
对比解码VCD, HALC需要构造干扰输入(模糊/旋转/裁剪),增加推理时间
注意力方法AGLA, ClearSight停留在模态级别分析,未深入 token 级行为
外部模型Woodpecker依赖外部更强模型后处理

共同问题:现有注意力方法停留在模态级别,缺乏对 token 级别精细行为的建模。


二、预备知识

2.1 Saliency 分析:度量 Token 级影响力

定义 V2V 影响(视觉→视觉)和 T2V 影响(文本→视觉),分别衡量单个视觉/文本 token 对视觉理解的贡献:

Iv2vl,j=1NVihAh,i,jlLAh,i,jl,iV,jVIt2vl,k=1NVihAh,i,klLAh,i,kl,iV,kT

其中 Ah,i,jl 为第 l 层第 h 个注意力头中第 i 个 query token 到第 j 个 key token 的归一化注意力权重,VT 分别是视觉和文本 token 的索引集合。

对每层取模态内/跨模态平均:

I¯v2vl=1NVjIv2vl,j,I¯t2vl=1NTkIt2vl,k

可视化结果显示 T2V 影响主导大部分层,而 V2V 影响集中在有限的中间层——这些层定义为视觉活跃层

2.2 视觉活跃层

视觉活跃层 Lv 是 V2V 影响活跃的层集合。在这些层中,视觉模态主要负责提供事实基础信息。语言模态的过度主导会压制视觉信号,导致幻觉。


三、核心方法

TAF 的核心思路:在视觉活跃层中,隔离幻影 token 对视觉 token 的注意力影响,同时强调锚点 token 的注意力影响

3.1 识别幻影 token 和锚点 token

注意力分数计算

定义逐层的 V2V 和 T2V 平均注意力分数:

Vl,j=1NViAi,jl,iV,jVTl,k=1NViAi,kl,iV,kT

注意这里使用的是推理时的注意力权重(不需要梯度),而非 saliency 分析中的注意力-梯度乘积。

锚点 token 识别

锚点分数 SAl,j=Vl,j,即第 j 个视觉 token 从所有其他视觉 token 获得的平均注意力。使用动态阈值自适应识别:

Al={jVSAl,jμAl+λAσAl}

其中 μAlσAl 是当前层锚点分数的均值和标准差,λA=1

视觉活跃层的定义:令 ΛAl 为第 l 层的 SAl,j 最大值,ΛA 为所有层的最大值。视觉活跃层集合为:

Lv={lμAl>0.35ΛA}

用大白话说:如果某层的锚点分数均值超过全局最大值的 35%,就认为该层是"视觉正在被积极处理"的层。

幻影 token 识别

幻影分数将 T2V 注意力与 V2V 基线对比:

SPl,k=Tl,kμAl+ϵ

采用双条件阈值策略——只有当幻影分数的分布足够极端时才激活识别:

  1. 前提条件σPl1.5σAl(幻影分数的标准差必须远大于锚点分数的标准差,说明存在极端异常值)
  2. 识别规则Pl={kTSPl,kμPl+λPσPl}λP=1.5
  3. 若前提条件不满足,Pl=

用大白话说:幻影 token 不是"稍微高一点"的文本 token,而是真正的极端离群值——只有在注意力分布确实呈现极端偏斜时才会被标记。这确保了方法的保守性和鲁棒性。

3.2 非对称过滤:调制注意力 logits

对于视觉活跃层 lLv 中的每个注意力头 h,在未归一化的注意力 logits ξhl 上进行调整:

ξhl=ξhl+αMA,hlξhlMP,hlξhl

其中:

  • α 是锚点强调系数(默认 0.2)
  • 为逐元素乘法
  • MA,hlMP,hl 是二值掩码:
MA,hl(i,j)=I(iV,jA)MP,hl(i,k)=I(iV,kP)

锚点强调+αMA,hlξhl):将所有视觉 token 到锚点 token 的注意力 logits 放大 (1+α) 倍,引导模型更聚焦于关键视觉区域。

幻影隔离MP,hlξhl):将所有视觉 token 到幻影 token 的注意力 logits 直接置零(减去自身),彻底切断幻影 token 对视觉模态的干扰。

关键设计:修改的是未归一化的 logits ξhl(softmax 前),而非归一化后的注意力权重。置零 logits 经过 softmax 后会得到很小但非零的权重,避免了硬截断带来的不稳定性。同时仅限视觉活跃层操作,不干扰其他层的正常推理。


四、实验结果

4.1 POPE 基准

在 3 种 LVLM 架构上的 F1-score 对比:

方法LLaVA-1.5 RandomLLaVA-1.5 PopularLLaVA-1.5 AdversarialQwen-VL RandomQwen-VL PopularQwen-VL AdversarialQwen2.5-VL RandomQwen2.5-VL PopularQwen2.5-VL Adversarial
Regular82.6379.1276.8482.9579.6677.1383.2180.1778.74
DoLa84.1380.8976.3384.7881.2577.8283.8980.4579.57
OPERA86.4683.2780.2486.5883.6880.6485.8184.2481.22
VCD86.4583.0178.5586.9483.5980.0386.4184.5682.33
AGLA87.1383.9281.4287.6984.2883.1488.4586.1384.96
ClearSight88.6984.6881.0488.5385.0181.4389.2485.7982.57
TAF90.4788.0386.2190.7288.7487.6991.1889.5288.47

TAF 在所有设置下均取得最佳结果,尤其在**对抗性设置(Adversarial)**下相比次优方法 ClearSight 提升幅度更大(LLaVA-1.5: +5.17, Qwen-VL: +6.26, Qwen2.5-VL: +5.90),说明 TAF 对共现物体引起的幻觉有更强的抑制能力。

4.2 CHAIR 基准

开放式图像描述生成任务("Please describe this image in detail."):

方法LLaVA-1.5 CHAIRSLLaVA-1.5 CHAIRILLaVA-1.5 Recall↑MiniGPT-4 CHAIRSMiniGPT-4 CHAIRIMiniGPT-4 Recall↑mPLUG-Owl2 CHAIRSmPLUG-Owl2 CHAIRImPLUG-Owl2 Recall↑
Greedy47.615.176.639.515.655.853.717.972.3
OPERA47.814.277.140.315.457.656.218.070.3
VCD51.415.876.039.916.254.264.119.271.6
DoLa49.514.977.239.616.058.154.116.971.4
AGLA46.614.576.539.114.757.253.417.672.5
TAF42.513.077.835.011.556.352.716.873.5

TAF 在三种不同架构上均取得 CHAIRS/CHAIRI 最优,同时 Recall 也保持竞争力(LLaVA-1.5 和 mPLUG-Owl2 上 Recall 最高),说明 TAF 在缓解幻觉的同时不会损害描述能力。

4.3 消融实验

锚点强调系数 αα 从 0 增加到 0.2 时性能持续提升,0.2 为最优;继续增大收益递减。

幻影隔离比例:控制对幻影 token T2V 注意力 logits 的抑制强度。从 0%(不隔离)到 100%(完全隔离),性能单调提升,100% 完全隔离效果最佳——说明幻影 token 在视觉活跃层中的 T2V 影响是纯噪声,完全移除是最优策略。

4.4 案例分析

  • 锚点强调:增大 α 使桌子形状从"rectangle"纠正为"oval"——增强关键视觉 token 的注意力使模型更准确识别物体属性
  • 幻影隔离:增大隔离比例使椅子计数从"two"纠正为"three"——移除误导性文本 token 的干扰使模型正确感知物体数量

五、局限性与未来方向

  1. 视觉活跃层的模型依赖性:当前通过 μAl>0.35ΛA 的固定比例阈值确定视觉活跃层,但不同 LVLM 架构中视觉活跃层的分布可能差异较大,可能需要针对性调优
  2. 仅面向推理阶段:TAF 是 training-free 的推理时方法,无法从根本上修正模型的幻觉倾向。与训练阶段方法(如 DPO 微调)的互补性值得探索
  3. 计算开销:需要在每层计算 V2V/T2V 注意力统计量并动态识别 phantom/anchor token,引入额外的推理延迟(论文未报告具体数字)
  4. 二值掩码的粗糙性:当前使用二值掩码(0 或 1)进行隔离/强调,soft mask 或可提供更精细的调制

六、个人思考

6.1 与 OPERA 的关系

OPERA 发现了柱状注意力模式(少数 summary token 吸引后续所有 token 的注意力),本文的 phantom token 概念更加精细——不仅关注"哪些 token 获得了过多注意力",还区分了影响方向(T2V vs V2V),只隔离文本→视觉的跨模态干扰。OPERA 需要修改 beam search 解码过程(引入回溯),而 TAF 直接修改注意力 logits,实现更简洁。

6.2 与 VisFlow/AGLA 的互补性

VisFlow 从 token 级别(增强 visual salient token)和 head 级别(抑制系统提示头/文本跟随头)两个层面干预注意力。TAF 提供了一个互补视角:不是笼统地按 token 类型(视觉 vs 文本)或 head 功能分类,而是通过统计异常检测(双条件阈值)精准定位"真正有害"的个别 token。AGLA 依赖外部 GradCAM 模型生成增强图像,TAF 完全基于模型内部注意力统计量,无需外部模型。

6.3 完全隔离的有效性

消融实验中 100% 隔离效果最佳这一结果非常有意思——说明被识别为 phantom token 的文本 token 在视觉活跃层中的影响确实是纯有害的,不包含任何有用的跨模态信息。这与论文中 phantom token 主要是"."、引号等低信息量 token 的观察一致。

6.4 方法的通用性

TAF 验证了 5 种跨越 3 种不同连接架构(线性投影、Q-Former、单塔 Transformer)的 LVLM,且在所有模型上都有效,说明 phantom/anchor 现象是 LVLM 的一种通用特性而非特定架构的产物。


参考

  • OPERA (Huang et al., CVPR 2024):发现注意力柱状聚合模式与幻觉共现,Beam Search 中引入过度信任惩罚 + 回溯重分配
  • AGLA (An et al., CVPR 2025):GradCAM 驱动的 Image-Prompt Matching 生成增强图像,融合全局-局部注意力缓解幻觉
  • VCD (Leng et al., CVPR 2024):通过对比正常图像和干扰图像(高斯噪声)的输出分布差异缓解幻觉
  • ClearSight (Yin et al., CVPR 2025):增强视觉信号以缓解多模态大模型对象幻觉
  • VisFlow (2025):双层注意力干预(token 级 + head 级)缓解 LVLM 幻觉