TAF:Token 非对称过滤缓解大视觉-语言模型幻觉
论文:Taming the Phantom: Token-Asymmetric Filtering for Hallucination Mitigation in Large Vision-Language Models
作者:Shuyi Ouyang, Hongyi Wang, Gongfan Fang, Xinyin Ma, Lanfen Lin*, Xinchao Wang*
机构:浙江大学、新加坡国立大学
发布时间:2026年(AAAI 2026)
🔗 论文
分类标签:
LVLMHallucinationAttention ModulationTraining-FreePlug-and-PlayToken-Level Analysis
一句话总结
通过 saliency 分析发现 LVLM 幻觉的两个 token 级根因——少数幻影 token (phantom tokens) 在视觉活跃层以数倍于视觉 token 的影响力误导视觉理解、关键锚点 token (anchor tokens) 的视觉证据未被充分利用——提出 Token-Asymmetric Filtering (TAF),在视觉活跃层的注意力图中隔离幻影 token 的 T2V 影响并强调锚点 token 的 V2V 影响,training-free 即插即用,在 LLaVA-1.5/Qwen-VL/Qwen2.5-VL/MiniGPT-4/mPLUG-Owl2 上全面 SOTA。
一、问题与动机
1.1 LVLM 幻觉:模态级分析的不足
现有研究多从模态级视角分析幻觉——视觉与语言模态之间的不平衡或错位。但这种粗粒度的分析忽略了 token 级别的精细行为,限制了缓解策略的灵活性和有效性。
1.2 Token 级别的两个关键发现
论文通过 saliency 分析(基于注意力权重与梯度的逐元素乘积)对 LLaVA-1.5-7B 进行逐层、逐 token 观察,发现:
发现 1:幻影 token (Phantom Tokens)
在幻觉场景中,少数文本 token 在视觉活跃层(V2V 影响显著的中间层)中的 T2V 影响力异常高,数倍于视觉 token 的平均 V2V 影响。这些 token 有可能将错误的语言先验注入视觉理解——例如将"roof"误导为"ceiling"。
发现 2:锚点 token (Anchor Tokens)
少数视觉 token 承载了解答查询所需的关键视觉证据(在 saliency 图中对应高亮区域)。模型通常知道"往哪里看",但当视觉注意力分散或错位时,这些关键视觉线索未被充分聚焦,导致幻觉。
1.3 Token 级非对称性
两个发现揭示了一种 token 级非对称性:
- 语言模态:虽然提供推理灵活性,但少数幻影 token 能不成比例地干扰视觉理解
- 视觉模态:虽然提供事实基础,但仅少数锚点 token 承载回答所需的核心视觉证据
1.4 现有方法的不足
| 方法类别 | 代表方法 | 局限 |
|---|---|---|
| 偏好微调 | RLHF-V, BPO | 需要大规模标注数据和训练资源 |
| 对比解码 | VCD, HALC | 需要构造干扰输入(模糊/旋转/裁剪),增加推理时间 |
| 注意力方法 | AGLA, ClearSight | 停留在模态级别分析,未深入 token 级行为 |
| 外部模型 | Woodpecker | 依赖外部更强模型后处理 |
共同问题:现有注意力方法停留在模态级别,缺乏对 token 级别精细行为的建模。
二、预备知识
2.1 Saliency 分析:度量 Token 级影响力
定义 V2V 影响(视觉→视觉)和 T2V 影响(文本→视觉),分别衡量单个视觉/文本 token 对视觉理解的贡献:
其中
对每层取模态内/跨模态平均:
可视化结果显示 T2V 影响主导大部分层,而 V2V 影响集中在有限的中间层——这些层定义为视觉活跃层。
2.2 视觉活跃层
视觉活跃层
三、核心方法
TAF 的核心思路:在视觉活跃层中,隔离幻影 token 对视觉 token 的注意力影响,同时强调锚点 token 的注意力影响。
3.1 识别幻影 token 和锚点 token
注意力分数计算
定义逐层的 V2V 和 T2V 平均注意力分数:
注意这里使用的是推理时的注意力权重(不需要梯度),而非 saliency 分析中的注意力-梯度乘积。
锚点 token 识别
锚点分数
其中
视觉活跃层的定义:令
用大白话说:如果某层的锚点分数均值超过全局最大值的 35%,就认为该层是"视觉正在被积极处理"的层。
幻影 token 识别
幻影分数将 T2V 注意力与 V2V 基线对比:
采用双条件阈值策略——只有当幻影分数的分布足够极端时才激活识别:
- 前提条件:
(幻影分数的标准差必须远大于锚点分数的标准差,说明存在极端异常值) - 识别规则:
, - 若前提条件不满足,
用大白话说:幻影 token 不是"稍微高一点"的文本 token,而是真正的极端离群值——只有在注意力分布确实呈现极端偏斜时才会被标记。这确保了方法的保守性和鲁棒性。
3.2 非对称过滤:调制注意力 logits
对于视觉活跃层
其中:
是锚点强调系数(默认 0.2) 为逐元素乘法 和 是二值掩码:
锚点强调(
幻影隔离(
关键设计:修改的是未归一化的 logits
四、实验结果
4.1 POPE 基准
在 3 种 LVLM 架构上的 F1-score 对比:
| 方法 | LLaVA-1.5 Random | LLaVA-1.5 Popular | LLaVA-1.5 Adversarial | Qwen-VL Random | Qwen-VL Popular | Qwen-VL Adversarial | Qwen2.5-VL Random | Qwen2.5-VL Popular | Qwen2.5-VL Adversarial |
|---|---|---|---|---|---|---|---|---|---|
| Regular | 82.63 | 79.12 | 76.84 | 82.95 | 79.66 | 77.13 | 83.21 | 80.17 | 78.74 |
| DoLa | 84.13 | 80.89 | 76.33 | 84.78 | 81.25 | 77.82 | 83.89 | 80.45 | 79.57 |
| OPERA | 86.46 | 83.27 | 80.24 | 86.58 | 83.68 | 80.64 | 85.81 | 84.24 | 81.22 |
| VCD | 86.45 | 83.01 | 78.55 | 86.94 | 83.59 | 80.03 | 86.41 | 84.56 | 82.33 |
| AGLA | 87.13 | 83.92 | 81.42 | 87.69 | 84.28 | 83.14 | 88.45 | 86.13 | 84.96 |
| ClearSight | 88.69 | 84.68 | 81.04 | 88.53 | 85.01 | 81.43 | 89.24 | 85.79 | 82.57 |
| TAF | 90.47 | 88.03 | 86.21 | 90.72 | 88.74 | 87.69 | 91.18 | 89.52 | 88.47 |
TAF 在所有设置下均取得最佳结果,尤其在**对抗性设置(Adversarial)**下相比次优方法 ClearSight 提升幅度更大(LLaVA-1.5: +5.17, Qwen-VL: +6.26, Qwen2.5-VL: +5.90),说明 TAF 对共现物体引起的幻觉有更强的抑制能力。
4.2 CHAIR 基准
开放式图像描述生成任务("Please describe this image in detail."):
| 方法 | LLaVA-1.5 CHAIR | LLaVA-1.5 CHAIR | LLaVA-1.5 Recall↑ | MiniGPT-4 CHAIR | MiniGPT-4 CHAIR | MiniGPT-4 Recall↑ | mPLUG-Owl2 CHAIR | mPLUG-Owl2 CHAIR | mPLUG-Owl2 Recall↑ |
|---|---|---|---|---|---|---|---|---|---|
| Greedy | 47.6 | 15.1 | 76.6 | 39.5 | 15.6 | 55.8 | 53.7 | 17.9 | 72.3 |
| OPERA | 47.8 | 14.2 | 77.1 | 40.3 | 15.4 | 57.6 | 56.2 | 18.0 | 70.3 |
| VCD | 51.4 | 15.8 | 76.0 | 39.9 | 16.2 | 54.2 | 64.1 | 19.2 | 71.6 |
| DoLa | 49.5 | 14.9 | 77.2 | 39.6 | 16.0 | 58.1 | 54.1 | 16.9 | 71.4 |
| AGLA | 46.6 | 14.5 | 76.5 | 39.1 | 14.7 | 57.2 | 53.4 | 17.6 | 72.5 |
| TAF | 42.5 | 13.0 | 77.8 | 35.0 | 11.5 | 56.3 | 52.7 | 16.8 | 73.5 |
TAF 在三种不同架构上均取得 CHAIR
4.3 消融实验
锚点强调系数
幻影隔离比例:控制对幻影 token T2V 注意力 logits 的抑制强度。从 0%(不隔离)到 100%(完全隔离),性能单调提升,100% 完全隔离效果最佳——说明幻影 token 在视觉活跃层中的 T2V 影响是纯噪声,完全移除是最优策略。
4.4 案例分析
- 锚点强调:增大
使桌子形状从"rectangle"纠正为"oval"——增强关键视觉 token 的注意力使模型更准确识别物体属性 - 幻影隔离:增大隔离比例使椅子计数从"two"纠正为"three"——移除误导性文本 token 的干扰使模型正确感知物体数量
五、局限性与未来方向
- 视觉活跃层的模型依赖性:当前通过
的固定比例阈值确定视觉活跃层,但不同 LVLM 架构中视觉活跃层的分布可能差异较大,可能需要针对性调优 - 仅面向推理阶段:TAF 是 training-free 的推理时方法,无法从根本上修正模型的幻觉倾向。与训练阶段方法(如 DPO 微调)的互补性值得探索
- 计算开销:需要在每层计算 V2V/T2V 注意力统计量并动态识别 phantom/anchor token,引入额外的推理延迟(论文未报告具体数字)
- 二值掩码的粗糙性:当前使用二值掩码(0 或 1)进行隔离/强调,soft mask 或可提供更精细的调制
六、个人思考
6.1 与 OPERA 的关系
OPERA 发现了柱状注意力模式(少数 summary token 吸引后续所有 token 的注意力),本文的 phantom token 概念更加精细——不仅关注"哪些 token 获得了过多注意力",还区分了影响方向(T2V vs V2V),只隔离文本→视觉的跨模态干扰。OPERA 需要修改 beam search 解码过程(引入回溯),而 TAF 直接修改注意力 logits,实现更简洁。
6.2 与 VisFlow/AGLA 的互补性
VisFlow 从 token 级别(增强 visual salient token)和 head 级别(抑制系统提示头/文本跟随头)两个层面干预注意力。TAF 提供了一个互补视角:不是笼统地按 token 类型(视觉 vs 文本)或 head 功能分类,而是通过统计异常检测(双条件阈值)精准定位"真正有害"的个别 token。AGLA 依赖外部 GradCAM 模型生成增强图像,TAF 完全基于模型内部注意力统计量,无需外部模型。
6.3 完全隔离的有效性
消融实验中 100% 隔离效果最佳这一结果非常有意思——说明被识别为 phantom token 的文本 token 在视觉活跃层中的影响确实是纯有害的,不包含任何有用的跨模态信息。这与论文中 phantom token 主要是"."、引号等低信息量 token 的观察一致。
6.4 方法的通用性
TAF 验证了 5 种跨越 3 种不同连接架构(线性投影、Q-Former、单塔 Transformer)的 LVLM,且在所有模型上都有效,说明 phantom/anchor 现象是 LVLM 的一种通用特性而非特定架构的产物。
参考
- OPERA (Huang et al., CVPR 2024):发现注意力柱状聚合模式与幻觉共现,Beam Search 中引入过度信任惩罚 + 回溯重分配
- AGLA (An et al., CVPR 2025):GradCAM 驱动的 Image-Prompt Matching 生成增强图像,融合全局-局部注意力缓解幻觉
- VCD (Leng et al., CVPR 2024):通过对比正常图像和干扰图像(高斯噪声)的输出分布差异缓解幻觉
- ClearSight (Yin et al., CVPR 2025):增强视觉信号以缓解多模态大模型对象幻觉
- VisFlow (2025):双层注意力干预(token 级 + head 级)缓解 LVLM 幻觉