Skip to content

Token Pruning in MLLMs:我们真的在解决正确的问题吗?

论文Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

作者:Zichen Wen, Yifeng Gao, Weijia Li, Conghui He, Linfeng Zhang

机构:上海交通大学、上海人工智能实验室、中山大学

发布时间:2025年2月(arXiv),ACL 2025 Findings 录用

分类标签MLLM Token Pruning Visual Token Compression Efficiency Analysis


一句话总结

系统性分析 MLLM 视觉 token 剪枝的五个核心问题——位置偏差导致精心设计的方法不如随机剪枝、语言引导仅在文本强关联任务有效、重要性 vs. 冗余性需按任务类型自适应平衡、FLOPs 不等于真实延迟训练感知压缩远优于推理阶段剪枝——为未来 token 剪枝方法设计提供系统性指导。


一、问题与动机

1.1 MLLM 推理瓶颈

多模态大语言模型面临严重的推理开销问题。以视觉-语言模型为例:

  • LLaVA-1.5 单张图像产生 576 个 visual token
  • LLaVA-NeXT 双倍分辨率下产生 2880 个 visual token,远超文本 prompt 长度
  • 视觉 token 数量多、空间冗余度高、信息密度低

Token 剪枝因无需训练即可应用于现有模型而备受关注,号称可剪枝 70%+ token 且精度损失可接受。

1.2 一个令人震惊的发现

论文发现一个反直觉的现象:

在多数 benchmark 上,随机 token 选择和简单平均池化竟然优于 FastV、SparseVLM 等精心设计的 token 剪枝方法。

方法GQAMMBMMB-CNMMEPOPESQAVQATextVizWizAvg.
Vanilla(576 tokens)61.964.758.1186285.969.558.250.0100%
保留 144 tokens(↓ 75%)
Random59.062.254.1173679.467.851.751.995.0%
Pooling59.162.555.2176381.469.153.451.996.4%
Vanilla FastV56.559.342.1168971.865.353.651.389.8%
SparseVLM55.159.551.0171177.669.354.951.493.5%

Random 和 Pooling 在近 2/3 的 benchmark 上超过了精心设计的方法。 这说明现有方法对"重要 token"的理解可能存在根本性偏差。

1.3 五个被忽视的核心问题

论文围绕以下五个问题展开系统研究:

  1. 为什么很多方法连随机选择都不如?
  2. 基于注意力的评分机制是否足以可靠识别冗余 token?
  3. 语言信息在 token 剪枝中是否真正有用?
  4. token 重要性和重复性之间如何权衡?
  5. 当前评估协议是否全面且无偏?

二、实验设置

2.1 模型

  • LLaVA-1.5-7B:CLIP + LLaMA,MLP 连接器
  • LLaVA-Next-7B:动态分辨率 + 层次化特征集成
  • Qwen2-VL 系列(7B/72B):训练阶段内置 token 合并(4 patch → 1 token)

2.2 数据集

类型数据集
视觉理解GQA、MMBench、MME、POPE、ScienceQA、VQA V2、TextVQA
物体定位RefCOCO/RefCOCO+/RefCOCOg
物体检索Visual Haystack

2.3 剪枝方法

  • FastV:第 2 层后按最后一个 token 的注意力分数选择 visual token
  • SparseVLM:文本引导的跨模态注意力 token 选择(无训练)
  • MustDrop:视觉编码 + prefill + 解码全生命周期多阶段剪枝
  • 基线:Random(随机选择)、Pooling(平均池化)

三、核心发现

3.1 发现一:空间均匀性 > 位置偏差

现象。 FastV 利用最后一个 text token 对 visual token 的注意力分数来评估重要性。论文在 POPE 数据集 8,910 个样本上统计 FastV 保留的 visual token 分布,发现:

位于 visual token 序列末尾(对应图像底部)的 token 获得显著更高的注意力分数,被保留的频率远高于其他位置。

这意味着注意力评分天然存在位置偏差 (position bias)——靠后位置的 token 不一定更重要,但注意力分数系统性偏高。

验证。 论文提出 Window FastV:引入滑动窗口机制,在每个局部窗口内按注意力分数选择固定数量的 token,从而保证保留 token 的空间均匀分布

算法:Window FastV

  1. K1 层正常计算,记录全局注意力分数 α=mean(A)[s:e]
  2. K 层将图像区域 reshape 为 2D 网格 ΓRh×w
  3. 将网格划分为局部窗口 {Wij}
  4. 在每个窗口内计算局部注意力分数并选 top-k
  5. 聚合所有窗口索引,构建保留序列

结果。 75% 剪枝率下 Window FastV 比 Vanilla FastV 平均性能衰减少 3.4%;88.9% 剪枝率下差距扩大到 9%

空间定位验证。 在 RefCOCO 系列 grounding 任务上,所有方法性能严重下降(↓ 76%–95%),但空间均匀方法(Window FastV、Random、Pooling)显著优于空间非均匀方法(Vanilla FastV、SparseVLM):

方法RefCOCO Avg.
Vanilla(无剪枝)100%
SparseVLM4.8%(↓ 95.2%)
Vanilla FastV18.8%(↓ 81.2%)
Random23.2%(↓ 76.8%)
Window FastV20.2%(↓ 79.8%)
Pooling22.7%(↓ 77.3%)

Summary 1:保留 token 分布的位置偏差是现有方法不如 Random/Pooling 的关键原因。设计 token 剪枝策略时应确保保留 token 的空间均匀性

3.2 发现二:语言引导何时有效?

假设。 Token 剪枝方法分两类:文本引导(FastV、SparseVLM、MustDrop)和纯视觉(FasterVLM)。两类方法在常见 benchmark 上表现相当——但这是否因为常见 benchmark 缺少文本信息至关重要的任务?

实验。 选择 Visual Haystack 任务——一个强文本依赖场景:模型需从多张干扰图像中根据锚词选择正确图像,然后判断目标物体是否存在。

论文将 FastV 改为不使用文本信息的 FastVVIS(用最后一个 visual token 替代 text token 计算注意力),对比结果:

方法Oracle2 imgs3 imgs5 imgs10 imgs
LLaVA-1.5-7B(无剪枝)86.570.066.258.353.5
SparseVLM81.366.166.558.254.0
FastV76.361.258.353.452.1
FastVVIS71.961.655.852.752.8
Random75.262.155.651.350.8
  • FastVVIS 显著下降,说明文本引导在强文本依赖任务中至关重要
  • SparseVLM 在 77.8% 压缩率下几乎保持原模型精度
  • 但在常见 VQA benchmark 上,纯视觉方法反而更优

Summary 2:文本引导仅在任务强依赖语言信息时有效。剪枝方法应根据任务需求自适应调整是否利用语言信息。

3.3 发现三:重要性 vs. 冗余性的 α 困境

这是论文最具理论深度的部分。Token 剪枝面临一个根本性张力:应优先移除冗余 token 以保持结构完整性,还是移除不重要 token 以保持预测能力?

信息论视角

冗余准则(任务无关):最大化原始 token X 与保留 token X 之间的互信息:

maxPI(X;X)=H(X)H(X|X)

这等价于信息瓶颈原理的压缩阶段,保持结构完整性。

重要性准则(任务导向):保留对预测输出 Y 关键的 token:

I(X;Y)I(X;Y)ϵ

由链式法则展开:

I(X;Y)原始=I(X;Y)保留+I(XX;Y|X)丢弃

两者的权衡由信息平面上的 rate-distortion 函数控制:

R(β)=maxX[I(X;Y)β1I(X;X)]

自适应评分机制

论文提出可调参数 α 的统一评分:

Score(xi)=αI(xi;Y|xi)预测关键性+(1α)[1I(xi;Xi)]模式独特性

实践中,重要性由 FastV 注意力分数衡量,冗余性由 visual token 与 last token 的余弦相似度(取反)衡量,两者均经 min-max 归一化后加权。

实验结果

BenchmarkVanillaα=0.00.10.20.30.50.70.80.91.0
MME1862170717141711170617111699168016881689
POPE85.982.882.682.481.981.679.777.975.671.8
SQA69.564.865.265.265.165.365.265.565.765.3
VQAText58.253.653.854.854.054.354.554.454.253.6

两个关键发现:

  • 感知主导任务(MME、POPE):α=0.00.1 最优,偏向冗余优先剪枝,保持结构完整性(I(X;X)
  • 知识密集任务(SQA、VQAText):α=0.80.9 最优,偏向重要性优先剪枝,增强语义连贯性(I(X;Y)

Summary 3:应按任务类型调整剪枝策略。感知任务用冗余优先保持结构保真度,知识推理任务用重要性优先保持预测能力。

3.4 发现四:FLOPs ≠ 真实加速

现象。 相同剪枝设定下(均保留 320 tokens),三种方法的 FLOPs 相近但实际延迟差异巨大:

方法Tokens ↓延迟FLOPs ↓KV Cache ↓POPE
Vanilla LLaVA-Next-7B288036:16100%1512.1 MB86.5
+ FastV32018:1712.8%168.0 MB78.3
+ SparseVLM32023:1115.6%168.0 MB82.3
+ MustDrop32023:4011.5%168.0 MB82.1

SparseVLM 的 FLOPs 仅比 FastV 高 2.8%,但实际延迟高出 26.8%

原因分析。

  1. Flash Attention 不兼容:三种方法都需要完整 attention map 来选择 token,无法使用 Flash Attention
  2. 剪枝层数差异:FastV 仅在 1 层剪枝,SparseVLM 和 MustDrop 在 4 层剪枝——更多层被迫使用 O(N2) 内存的传统注意力
  3. 运行时开销:逐层剪枝的复杂 token 选择操作可能抵消序列缩短带来的加速
  4. 深层剪枝收益递减:在网络深层剪枝 token 对整体加速贡献有限

Summary 4:FLOPs 不是评估加速效果的可靠指标,应以实际延迟为准。Token 剪枝应在浅层用简单操作完成,并确保与 Flash Attention 兼容。

3.5 发现五:训练感知压缩的被忽视优势

新一代 MLLM(如 Qwen2-VL)在训练阶段就内置了 token 合并策略(4 个相邻 patch 合并为 1 个 visual token)。这些模型产生的 visual token 信息密度更高,同样数量的 token 剪枝会导致更大的信息损失。

论文定义了训练感知的 Token Reduction Rate(TRR):

TRR(FastV)TACR训练感知×TFRR推理阶段

其中 Qwen2-VL 的 TACR = 4。FastV 表示考虑训练阶段压缩的 FastV。

实验结果。 Qwen2-VL-7B 上:

方法GQAMMBMMEPOPESQAVQATextAvg.
Vanilla62.280.5231786.184.782.1100%
FastV(↓ 66.7%)58.076.1213082.180.077.394.0%
FastV(↓ 66.7%)61.980.9229686.284.681.799.8%
FastV(↓ 88.9%)51.970.1196276.175.860.384.0%
FastV(↓ 88.9%)61.981.1228986.284.481.399.6%

考虑训练感知压缩后,即使 88.9% 的名义剪枝率下性能仍近乎无损(99.6%)!这表明 Qwen2-VL 的训练阶段 PatchMerger 已经有效压缩了大部分冗余信息。

Summary 5:训练感知 token 压缩技术值得更多研究关注——它提供远优于推理阶段剪枝的性能保障。


四、局限性

  1. 模型覆盖有限:实验主要在 LLaVA 和 Qwen2-VL 上进行,未扩展到更多架构(如 InternVL、MiniCPM-V 等)
  2. 缺少不同模型规模的系统对比:结论是否在更大或更小的模型上仍然成立需要验证
  3. 未探讨 token 剪枝 vs. token 合并:两者在不同场景下的优劣尚未系统比较
  4. OCR 场景未涉及:富文本 OCR 图像上的 token 剪枝效果未被评估

五、个人思考

5.1 与 VLA-Pruner 的关联

VLA-Pruner 提出的双层 token 剪枝策略(语义级 prefill + 动作级 decode 注意力时序平滑)实际上已经隐含了本文的多个洞察:

  • VLA-Pruner 的 mRMR 选择策略正是在重要性和冗余性之间取平衡——与本文 α 困境的分析完全吻合
  • VLA-Pruner 发现 50% 剪枝率反超原模型,这可能恰好是因为去除了冗余 token 带来的噪声

5.2 "Random 不如"才是真问题

本文最有价值的贡献不是提出新方法,而是指出问题:如果一个精心设计的方法连随机选择都不如,说明我们对"什么 token 重要"的理解可能从根本上就是错的。位置偏差的分析非常有说服力——注意力分数并不等于视觉重要性。

5.3 训练感知压缩的启示

FastV 在 Qwen2-VL 上 88.9% 剪枝率仍保持 99.6% 性能,这个结果极其震撼。它暗示:与其在推理阶段费尽心思设计剪枝策略,不如在训练阶段就学会压缩。这与近期 Qwen2-VL、MiniCPM-V 等模型的设计趋势一致——训练时内置高效的视觉 token 压缩模块。

5.4 信息论框架的价值

α 困境的信息论分析虽然在实际使用中不直接可操作(需要知道任务类型才能选 α),但提供了一个理解 token 剪枝本质的清晰框架:感知任务需要空间完整性(保留独特 token),推理任务需要语义关键性(保留重要 token)。这对未来设计自适应剪枝方法很有指导意义。

5.5 Flash Attention 兼容性

FLOPs vs. 延迟的分析揭示了一个实用但常被忽视的问题:如果剪枝方法需要完整 attention map,就无法利用 Flash Attention,反而可能导致负加速。这对工业部署尤为重要——方法论文中报告的理论加速比在实际硬件上可能完全不成立。


六、参考

  • FastV (Chen et al., 2024):An Image is Worth 1/2 Tokens After Layer 2
  • SparseVLM (Zhang et al., 2024):Visual Token Sparsification for Efficient Vision-Language Model Inference
  • MustDrop (Liu et al., 2024):Multi-Stage Vision Token Dropping
  • ToMe (Bolya et al., 2023):Token Merging: Your ViT but Faster
  • FasterVLM (Zhang et al., 2024):[CLS] Attention is All You Need for Training-Free Visual Token Pruning
  • VLA-Pruner (项目中已有):双层 Token 剪枝策略用于 VLA 高效推理