TAF：Token 非对称过滤缓解大视觉-语言模型幻觉

论文：Taming the Phantom: Token-Asymmetric Filtering for Hallucination Mitigation in Large Vision-Language Models
作者：Shuyi Ouyang, Hongyi Wang, Gongfan Fang, Xinyin Ma, Lanfen Lin*, Xinchao Wang*
机构：浙江大学、新加坡国立大学
发布时间：2026年（AAAI 2026）
🔗 论文
分类标签：LVLM Hallucination Attention Modulation Training-Free Plug-and-Play Token-Level Analysis

一句话总结

通过 saliency 分析发现 LVLM 幻觉的两个 token 级根因——少数幻影 token (phantom tokens) 在视觉活跃层以数倍于视觉 token 的影响力误导视觉理解、关键锚点 token (anchor tokens) 的视觉证据未被充分利用——提出 Token-Asymmetric Filtering (TAF)，在视觉活跃层的注意力图中隔离幻影 token 的 T2V 影响并强调锚点 token 的 V2V 影响，training-free 即插即用，在 LLaVA-1.5/Qwen-VL/Qwen2.5-VL/MiniGPT-4/mPLUG-Owl2 上全面 SOTA。

一、问题与动机

1.1 LVLM 幻觉：模态级分析的不足

现有研究多从模态级视角分析幻觉——视觉与语言模态之间的不平衡或错位。但这种粗粒度的分析忽略了 token 级别的精细行为，限制了缓解策略的灵活性和有效性。

1.2 Token 级别的两个关键发现

论文通过 saliency 分析（基于注意力权重与梯度的逐元素乘积）对 LLaVA-1.5-7B 进行逐层、逐 token 观察，发现：

发现 1：幻影 token (Phantom Tokens)

在幻觉场景中，少数文本 token 在视觉活跃层（V2V 影响显著的中间层）中的 T2V 影响力异常高，数倍于视觉 token 的平均 V2V 影响。这些 token 有可能将错误的语言先验注入视觉理解——例如将"roof"误导为"ceiling"。

发现 2：锚点 token (Anchor Tokens)

少数视觉 token 承载了解答查询所需的关键视觉证据（在 saliency 图中对应高亮区域）。模型通常知道"往哪里看"，但当视觉注意力分散或错位时，这些关键视觉线索未被充分聚焦，导致幻觉。

1.3 Token 级非对称性

两个发现揭示了一种 token 级非对称性：

语言模态：虽然提供推理灵活性，但少数幻影 token 能不成比例地干扰视觉理解
视觉模态：虽然提供事实基础，但仅少数锚点 token 承载回答所需的核心视觉证据

1.4 现有方法的不足

方法类别	代表方法	局限
偏好微调	RLHF-V, BPO	需要大规模标注数据和训练资源
对比解码	VCD, HALC	需要构造干扰输入（模糊/旋转/裁剪），增加推理时间
注意力方法	AGLA, ClearSight	停留在模态级别分析，未深入 token 级行为
外部模型	Woodpecker	依赖外部更强模型后处理

共同问题：现有注意力方法停留在模态级别，缺乏对 token 级别精细行为的建模。

二、预备知识

2.1 Saliency 分析：度量 Token 级影响力

定义 V2V 影响（视觉→视觉）和 T2V 影响（文本→视觉），分别衡量单个视觉/文本 token 对视觉理解的贡献：

I_{v 2 v}^{l, j} = \frac{1}{N_{V}} \sum_{i} \sum_{h} A_{h, i, j}^{l} ⊙ \frac{\partial L}{\partial A_{h, i, j}^{l}}, i \in V, j \in V

I_{t 2 v}^{l, k} = \frac{1}{N_{V}} \sum_{i} \sum_{h} A_{h, i, k}^{l} ⊙ \frac{\partial L}{\partial A_{h, i, k}^{l}}, i \in V, k \in T

其中 $A_{h, i, j}^{l}$ 为第 $l$ 层第 $h$ 个注意力头中第 $i$ 个 query token 到第 $j$ 个 key token 的归一化注意力权重， $V$ 和 $T$ 分别是视觉和文本 token 的索引集合。

对每层取模态内/跨模态平均：

{\bar{I}}_{v 2 v}^{l} = \frac{1}{N_{V}} \sum_{j} I_{v 2 v}^{l, j}, {\bar{I}}_{t 2 v}^{l} = \frac{1}{N_{T}} \sum_{k} I_{t 2 v}^{l, k}

可视化结果显示 T2V 影响主导大部分层，而 V2V 影响集中在有限的中间层——这些层定义为视觉活跃层。

2.2 视觉活跃层

视觉活跃层 $L_{v}$ 是 V2V 影响活跃的层集合。在这些层中，视觉模态主要负责提供事实基础信息。语言模态的过度主导会压制视觉信号，导致幻觉。

三、核心方法

TAF 的核心思路：在视觉活跃层中，隔离幻影 token 对视觉 token 的注意力影响，同时强调锚点 token 的注意力影响。

3.1 识别幻影 token 和锚点 token

注意力分数计算

定义逐层的 V2V 和 T2V 平均注意力分数：

V^{l, j} = \frac{1}{N_{V}} \sum_{i} A_{i, j}^{l}, i \in V, j \in V

T^{l, k} = \frac{1}{N_{V}} \sum_{i} A_{i, k}^{l}, i \in V, k \in T

注意这里使用的是推理时的注意力权重（不需要梯度），而非 saliency 分析中的注意力-梯度乘积。

锚点 token 识别

锚点分数 $S_{A}^{l, j} = V^{l, j}$ ，即第 $j$ 个视觉 token 从所有其他视觉 token 获得的平均注意力。使用动态阈值自适应识别：

A^{l} = {j \in V ∣ S_{A}^{l, j} \geq μ_{A}^{l} + λ_{A} \cdot σ_{A}^{l}}

其中 $μ_{A}^{l}$ 和 $σ_{A}^{l}$ 是当前层锚点分数的均值和标准差， $λ_{A} = 1$ 。

视觉活跃层的定义：令 $Λ_{A}^{l}$ 为第 $l$ 层的 $S_{A}^{l, j}$ 最大值， $Λ_{A}$ 为所有层的最大值。视觉活跃层集合为：

L_{v} = {l ∣ μ_{A}^{l} > 0.35 \cdot Λ_{A}}

用大白话说：如果某层的锚点分数均值超过全局最大值的 35%，就认为该层是"视觉正在被积极处理"的层。

幻影 token 识别

幻影分数将 T2V 注意力与 V2V 基线对比：

S_{P}^{l, k} = \frac{T^{l, k}}{μ_{A}^{l} + ϵ}

采用双条件阈值策略——只有当幻影分数的分布足够极端时才激活识别：

前提条件： $σ_{P}^{l} \geq 1.5 \cdot σ_{A}^{l}$ （幻影分数的标准差必须远大于锚点分数的标准差，说明存在极端异常值）
识别规则： $P^{l} = {k \in T ∣ S_{P}^{l, k} \geq μ_{P}^{l} + λ_{P} \cdot σ_{P}^{l}}$ ， $λ_{P} = 1.5$
若前提条件不满足， $P^{l} = \emptyset$

用大白话说：幻影 token 不是"稍微高一点"的文本 token，而是真正的极端离群值——只有在注意力分布确实呈现极端偏斜时才会被标记。这确保了方法的保守性和鲁棒性。

3.2 非对称过滤：调制注意力 logits

对于视觉活跃层 $l \in L_{v}$ 中的每个注意力头 $h$ ，在未归一化的注意力 logits $ξ_{h}^{l}$ 上进行调整：

ξ_{h}^{l} = ξ_{h}^{l} + α \cdot M_{A, h}^{l} \circ ξ_{h}^{l} - M_{P, h}^{l} \circ ξ_{h}^{l}

其中：

$α$ 是锚点强调系数（默认 0.2）
$\circ$ 为逐元素乘法
$M_{A, h}^{l}$ 和 $M_{P, h}^{l}$ 是二值掩码：

M_{A, h}^{l} (i, j) = I (i \in V, j \in A)

M_{P, h}^{l} (i, k) = I (i \in V, k \in P)

锚点强调（ $+ α \cdot M_{A, h}^{l} \circ ξ_{h}^{l}$ ）：将所有视觉 token 到锚点 token 的注意力 logits 放大 $(1 + α)$ 倍，引导模型更聚焦于关键视觉区域。

幻影隔离（ $- M_{P, h}^{l} \circ ξ_{h}^{l}$ ）：将所有视觉 token 到幻影 token 的注意力 logits 直接置零（减去自身），彻底切断幻影 token 对视觉模态的干扰。

关键设计：修改的是未归一化的 logits $ξ_{h}^{l}$ （softmax 前），而非归一化后的注意力权重。置零 logits 经过 softmax 后会得到很小但非零的权重，避免了硬截断带来的不稳定性。同时仅限视觉活跃层操作，不干扰其他层的正常推理。

四、实验结果

4.1 POPE 基准

在 3 种 LVLM 架构上的 F1-score 对比：

方法	LLaVA-1.5 Random	LLaVA-1.5 Popular	LLaVA-1.5 Adversarial	Qwen-VL Random	Qwen-VL Popular	Qwen-VL Adversarial	Qwen2.5-VL Random	Qwen2.5-VL Popular	Qwen2.5-VL Adversarial
Regular	82.63	79.12	76.84	82.95	79.66	77.13	83.21	80.17	78.74
DoLa	84.13	80.89	76.33	84.78	81.25	77.82	83.89	80.45	79.57
OPERA	86.46	83.27	80.24	86.58	83.68	80.64	85.81	84.24	81.22
VCD	86.45	83.01	78.55	86.94	83.59	80.03	86.41	84.56	82.33
AGLA	87.13	83.92	81.42	87.69	84.28	83.14	88.45	86.13	84.96
ClearSight	88.69	84.68	81.04	88.53	85.01	81.43	89.24	85.79	82.57
TAF	90.47	88.03	86.21	90.72	88.74	87.69	91.18	89.52	88.47

TAF 在所有设置下均取得最佳结果，尤其在**对抗性设置（Adversarial）**下相比次优方法 ClearSight 提升幅度更大（LLaVA-1.5: +5.17, Qwen-VL: +6.26, Qwen2.5-VL: +5.90），说明 TAF 对共现物体引起的幻觉有更强的抑制能力。

4.2 CHAIR 基准

开放式图像描述生成任务（"Please describe this image in detail."）：

方法	LLaVA-1.5 CHAIR $_{S}$ ↓	LLaVA-1.5 CHAIR $_{I}$ ↓	LLaVA-1.5 Recall↑	MiniGPT-4 CHAIR $_{S}$ ↓	MiniGPT-4 CHAIR $_{I}$ ↓	MiniGPT-4 Recall↑	mPLUG-Owl2 CHAIR $_{S}$ ↓	mPLUG-Owl2 CHAIR $_{I}$ ↓	mPLUG-Owl2 Recall↑
Greedy	47.6	15.1	76.6	39.5	15.6	55.8	53.7	17.9	72.3
OPERA	47.8	14.2	77.1	40.3	15.4	57.6	56.2	18.0	70.3
VCD	51.4	15.8	76.0	39.9	16.2	54.2	64.1	19.2	71.6
DoLa	49.5	14.9	77.2	39.6	16.0	58.1	54.1	16.9	71.4
AGLA	46.6	14.5	76.5	39.1	14.7	57.2	53.4	17.6	72.5
TAF	42.5	13.0	77.8	35.0	11.5	56.3	52.7	16.8	73.5

TAF 在三种不同架构上均取得 CHAIR $_{S}$ /CHAIR $_{I}$ 最优，同时 Recall 也保持竞争力（LLaVA-1.5 和 mPLUG-Owl2 上 Recall 最高），说明 TAF 在缓解幻觉的同时不会损害描述能力。

4.3 消融实验

锚点强调系数 $α$ ： $α$ 从 0 增加到 0.2 时性能持续提升，0.2 为最优；继续增大收益递减。

幻影隔离比例：控制对幻影 token T2V 注意力 logits 的抑制强度。从 0%（不隔离）到 100%（完全隔离），性能单调提升，100% 完全隔离效果最佳——说明幻影 token 在视觉活跃层中的 T2V 影响是纯噪声，完全移除是最优策略。

4.4 案例分析

锚点强调：增大 $α$ 使桌子形状从"rectangle"纠正为"oval"——增强关键视觉 token 的注意力使模型更准确识别物体属性
幻影隔离：增大隔离比例使椅子计数从"two"纠正为"three"——移除误导性文本 token 的干扰使模型正确感知物体数量

五、局限性与未来方向

视觉活跃层的模型依赖性：当前通过 $μ_{A}^{l} > 0.35 Λ_{A}$ 的固定比例阈值确定视觉活跃层，但不同 LVLM 架构中视觉活跃层的分布可能差异较大，可能需要针对性调优
仅面向推理阶段：TAF 是 training-free 的推理时方法，无法从根本上修正模型的幻觉倾向。与训练阶段方法（如 DPO 微调）的互补性值得探索
计算开销：需要在每层计算 V2V/T2V 注意力统计量并动态识别 phantom/anchor token，引入额外的推理延迟（论文未报告具体数字）
二值掩码的粗糙性：当前使用二值掩码（0 或 1）进行隔离/强调，soft mask 或可提供更精细的调制

六、个人思考

6.1 与 OPERA 的关系

OPERA 发现了柱状注意力模式（少数 summary token 吸引后续所有 token 的注意力），本文的 phantom token 概念更加精细——不仅关注"哪些 token 获得了过多注意力"，还区分了影响方向（T2V vs V2V），只隔离文本→视觉的跨模态干扰。OPERA 需要修改 beam search 解码过程（引入回溯），而 TAF 直接修改注意力 logits，实现更简洁。

6.2 与 VisFlow/AGLA 的互补性

VisFlow 从 token 级别（增强 visual salient token）和 head 级别（抑制系统提示头/文本跟随头）两个层面干预注意力。TAF 提供了一个互补视角：不是笼统地按 token 类型（视觉 vs 文本）或 head 功能分类，而是通过统计异常检测（双条件阈值）精准定位"真正有害"的个别 token。AGLA 依赖外部 GradCAM 模型生成增强图像，TAF 完全基于模型内部注意力统计量，无需外部模型。

6.3 完全隔离的有效性

消融实验中 100% 隔离效果最佳这一结果非常有意思——说明被识别为 phantom token 的文本 token 在视觉活跃层中的影响确实是纯有害的，不包含任何有用的跨模态信息。这与论文中 phantom token 主要是"."、引号等低信息量 token 的观察一致。

6.4 方法的通用性

TAF 验证了 5 种跨越 3 种不同连接架构（线性投影、Q-Former、单塔 Transformer）的 LVLM，且在所有模型上都有效，说明 phantom/anchor 现象是 LVLM 的一种通用特性而非特定架构的产物。

参考

OPERA (Huang et al., CVPR 2024)：发现注意力柱状聚合模式与幻觉共现，Beam Search 中引入过度信任惩罚 + 回溯重分配
AGLA (An et al., CVPR 2025)：GradCAM 驱动的 Image-Prompt Matching 生成增强图像，融合全局-局部注意力缓解幻觉
VCD (Leng et al., CVPR 2024)：通过对比正常图像和干扰图像（高斯噪声）的输出分布差异缓解幻觉
ClearSight (Yin et al., CVPR 2025)：增强视觉信号以缓解多模态大模型对象幻觉
VisFlow (2025)：双层注意力干预（token 级 + head 级）缓解 LVLM 幻觉

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

TAF：Token 非对称过滤缓解大视觉-语言模型幻觉 ​

一句话总结 ​

一、问题与动机 ​

1.1 LVLM 幻觉：模态级分析的不足 ​

1.2 Token 级别的两个关键发现 ​

1.3 Token 级非对称性 ​

1.4 现有方法的不足 ​

二、预备知识 ​

2.1 Saliency 分析：度量 Token 级影响力 ​

2.2 视觉活跃层 ​

三、核心方法 ​

3.1 识别幻影 token 和锚点 token ​

注意力分数计算 ​

锚点 token 识别 ​

幻影 token 识别 ​

3.2 非对称过滤：调制注意力 logits ​

四、实验结果 ​

4.1 POPE 基准 ​

4.2 CHAIR 基准 ​

4.3 消融实验 ​

4.4 案例分析 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与 OPERA 的关系 ​

6.2 与 VisFlow/AGLA 的互补性 ​

6.3 完全隔离的有效性 ​

6.4 方法的通用性 ​

参考 ​