Skip to content

RLRC:基于强化学习恢复的 VLA 模型压缩框架

作者:Yuxuan Chen, Xiao Li

机构:Shanghai Jiao Tong University

发布时间:2025年6月

论文链接arXiv | 项目主页

分类标签VLA 压缩 结构化剪枝 RL 恢复 量化


一句话总结

提出三阶段 VLA 压缩流水线(结构化剪枝 + SFT/RL 性能恢复 + 4-bit 量化),在 90% 剪枝率下通过 RL 恢复甚至超越原始 VLA 性能,实现 8× 内存压缩和 2.3× 推理加速。


一、问题与动机

1.1 VLA 的部署困境

VLA 模型(如 OpenVLA 7.5B)基于大规模 VLM 构建,虽然在机器人操控任务上展现了强大的泛化能力,但面临严重的部署瓶颈:

  • 参数量巨大:OpenVLA 有 7.54B 参数,需要约 15GB 显存
  • 推理延迟高:单步推理约 169ms,难以满足实时控制需求
  • 边端设备受限:机器人平台通常算力和内存有限,无法承载如此大的模型

1.2 现有压缩方法的不足

已有的 VLA 加速策略各有局限:

轻量架构替换(TinyVLA、SmolVLA 等):

  • 换用小模型作为骨架,但需要从头训练,且能力上限受限于小模型本身

Token 级优化(VLA-Cache、FlashVLA 等):

  • 通过减少冗余 token 计算来加速推理
  • 但压缩比有限,且不减少模型本身的内存占用

传统模型压缩(量化、剪枝、蒸馏):

  • 已在 LLM 上广泛使用,但直接迁移到 VLA 的效果缺乏系统性研究
  • 特别是结构化剪枝在高压缩率下性能断崖式下降,如何恢复是核心挑战

1.3 RLRC 的核心洞察

RLRC 通过前期实验发现了两个关键事实:

发现一:结构化剪枝即使在 90% 的极端剪枝率下,经过 SFT 仍能恢复大部分性能。 这说明 VLA 的 LLM 组件存在巨大的冗余空间。

发现二:SFT 只能恢复到接近但不及原始性能的水平,而 RL 能进一步提升,甚至超越原始模型。 RL 的探索性使其能发现 SFT 数据中不存在的更优策略。

基于这两个发现,RLRC 设计了一套「先大幅剪枝、再恢复增强」的分阶段压缩策略。


二、预备知识

2.1 VLA 的训练范式

VLA 训练通常分为两阶段:在大规模多模态数据上预训练,再在特定机器人数据集上 SFT。训练目标是最大化动作序列的对数似然:

L(θ)=E(o,a,q)D[t=1Tlogπθ(atot,qt)]

其中 o 是观测(视觉 I + 语言指令 l),a 是动作,q 是本体感觉。

2.2 量化

量化通过将浮点权重映射到低精度整数来减少内存:

w^=round(ws),wsw^

其中 s 是缩放因子。主要分为:

  • PTQ(训练后量化):直接量化预训练模型,无需修改权重
  • QAT(量化感知训练):在训练中引入量化效应

2.3 结构化剪枝 vs 非结构化剪枝

  • 非结构化剪枝:移除单个权重,产生不规则稀疏模式,硬件难以利用
  • 结构化剪枝:移除整个神经元/注意力头/通道,保持架构规整,硬件友好,但对性能影响更大

2.4 PPO 强化学习

RLRC 使用 PPO 作为 RL 算法,目标函数为:

Lθ=Et[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)]

其中 rt(θ)=πθ(at|st)πθold(at|st) 是新旧策略的概率比,A^t 是优势函数估计,ϵ 控制裁剪范围。


三、前期探索:模型压缩技术在 VLA 上的适用性

RLRC 的核心方法建立在系统性的前期实验之上。所有实验基于 OpenVLA,在 LIBERO 基准上评估。

3.1 量化对 VLA 的影响

模型SpatialLong参数量 (B)显存 (GB)推理延迟 (ms)吞吐量 (samples/s)
OpenVLA84.753.77.5414.8581695.9
+ 8bit84.652.07.547.949282.73.5
+ 4bit81.049.87.544.971134.17.5

关键发现

  • 量化对性能影响很小(4-bit 仅降 3.7pp),但显存压缩显著(压到原来的 1/3)
  • 8-bit 量化(LLM.int8())反而更慢——反量化操作引入额外开销
  • 4-bit 量化在速度和显存上取得较好平衡

3.2 剪枝对 VLA 的影响

模型SpatialSpatial(SFT)LongLong(SFT)显存 (GB)吞吐量
OpenVLA84.753.714.8585.9
+ Magnitude(非结构化)83.480.451.850.614.8266.2
+ Wanda(非结构化)84.084.649.850.614.8246.0
+ LLM-Pruner(结构化)23.484.01.046.012.4337.2
+ FLAP(结构化)0.282.60.050.212.5107.4

以上剪枝均在 20% 剪枝率下进行。

关键发现

  • 非结构化剪枝:性能损失小,但显存和速度几乎无改善(硬件无法利用不规则稀疏)
  • 结构化剪枝:直接剪枝后性能崩溃(FLAP: 0.2%),但 SFT 后能恢复到 82.6%
  • 这揭示了关键规律:结构化剪枝 + SFT = 真实加速 + 可恢复的性能

3.3 高剪枝率下的表现

实验进一步探索了不同剪枝率的影响:

  • 结构化剪枝在 20% 时性能就几乎归零
  • 但 SFT 后,即使 90% 参数被移除,仍能恢复大部分性能
  • 这是 RLRC 采用 90% 激进剪枝率的核心动机

3.4 量化 + 剪枝的叠加效果

方法Spatial显存 (GB)吞吐量
Dense84.714.8585.9
LLM-Pruner 90% + SFT79.63.53915.2
LLM-Pruner 90% + SFT + 8bit76.62.2053.9
LLM-Pruner 90% + SFT + 4bit70.41.66511.2

关键发现

  • 90% 剪枝 + 4-bit 量化可以将显存压到原来的 1/8(14.858 → 1.665 GB)
  • 性能下降约 14pp,但这为 RLRC 的 RL 恢复阶段留下了提升空间
  • 高剪枝率下量化的速度收益递减——模型本身已很小,反量化开销占比增大

四、核心方法:RLRC 三阶段流水线

4.1 第一阶段:VLA 结构化剪枝

RLRC 使用 LLM-Pruner 对 VLA 的 LLM 组件进行结构化剪枝。

步骤

  1. 构建结构依赖图:分析 LLM 内部的参数耦合关系(如同一注意力头的 Q/K/V 投影必须同步裁剪)

  2. 评估重要性:对每个结构组 g 计算重要性分数 I(g)(采用 Taylor 重要性准则),按分数排序后裁剪最不重要的组:

Gpruned=Top-kgGmin{I(g)},Gretained=GGpruned
  1. 保护首尾层:保留第一层和最后一层解码器不剪枝,仅对中间层施加剪枝,以维持模型的表征能力和稳定性

  2. 剪枝粒度:block-wise 级别,采用 90% 全局剪枝率

剪枝前后的架构变化

以 LLaMA 架构为例:

  • Attention 层:Q(4096,4096)Q(4096,256)K/V 同理,O(4096,4096)O(256,4096)
  • MLP 层:gate/up(4096,11008)(4096,550)down(11008,4096)(550,4096)

中间维度大幅缩减,但输入输出维度不变,保持与上下游模块的兼容性。

4.2 第二阶段:SFT + RL 性能恢复

这是 RLRC 的核心创新。剪枝后的 VLA 性能几乎归零,需要通过两阶段恢复。

4.2.1 SFT 恢复

先用任务特定数据对剪枝后的 VLA 进行 SFT,使其适应缩小后的架构。

  • SFT 只需约 10k 步即可恢复大部分性能
  • 继续增加 SFT 步数反而导致性能下降(过拟合)
  • SFT 后的模型虽然接近但始终略低于原始 VLA

4.2.2 RL 恢复(PPO)

在 SFT 基础上进一步用 RL 优化:

Actor-Critic 设计:遵循 RLVLA 的设计,Actor 和 Critic 共享完整的 Transformer 骨架。从最后一个 Transformer Block 的第一个动作 token 位置提取隐表征 h0,输入轻量 MLP 回归出标量状态值。这种共享设计大幅降低 PPO 训练的显存开销。

稀疏奖励

rt={1.0,物体被成功放置0.1,物体被抓取0,其他

RL 的独特优势

  • RL 的探索性使模型能发现 SFT 数据中不存在的行为模式
  • OOD 任务上 RL 的提升尤为显著——2M 步训练后 OOD 成功率达 87.5%,比原始 VLA 提升约 30%
  • 剪枝后的小模型训练效率更高,天然适合 RLFT

SFT 先于 RL 的必要性(消融实验证实):

  • 直接对剪枝模型做 RL:2M 步后仍然几乎无效
  • SFT + RL:快速收敛,显著提升
  • 原因:SFT 提供了合理的初始策略(warm start),RL 需要这个起点来有效探索

4.3 第三阶段:可选的 4-bit 量化

在 SFT + RL 恢复后,模型已达到甚至超越原始性能。此时可进一步施加 4-bit 量化:

  • 显存进一步大幅压缩(3.856 → 1.772 GB)
  • 代价是轻微的性能下降和推理延迟增加(反量化开销)
  • 如果目标设备显存充足,可以跳过此步

五、实验结果

5.1 实验设置

基准环境:ManiSkill3(支持并行环境,适合 RL 训练)

任务集:PutOnPlateInScene25Main(来自 RLVLA),使用 8-DoF WidowX-250S 机械臂抓取物体并放到盘子上

  • IND(分布内):16 个训练时可见的任务
  • OOD(分布外):9 个未见任务

评估指标:成功率、显存占用、推理延迟、动作吞吐量

硬件:NVIDIA RTX 5880 Ada

5.2 与其他方法的对比

方法IND SR (%)OOD SR (%)显存 (GB)推理延迟 (ms)吞吐量 (samples/s)
OpenVLA(基线)89.0657.8114.858169.005.9
VLA-Cache87.5059.3814.794125.188.0
OpenVLA + 4bit85.9356.254.971134.107.5
OpenVLA + LLM-Pruner(20%)21.8614.0612.433139.397.2
RLRC90.6262.503.85674.0713.5
RLRC-4bit85.9354.681.772100.779.9

核心数字

  • RLRC 实现 8× 显存压缩(14.858 → 1.772 GB)和 2.3× 吞吐提升(5.9 → 13.5 samples/s)
  • IND 成功率 90.62%,超越原始 VLA 的 89.06%
  • OOD 成功率 62.50%,比原始 VLA 提升 4.7pp
  • 即使叠加 4-bit 量化,IND 仍达 85.93%,显存仅 1.772 GB

5.3 SFT 和 RL 的训练曲线

SFT 阶段

  • 约 10k 步即可收敛
  • 超过 10k 步性能反而下降

RL 阶段

  • IND 成功率随训练先升后降(可能过拟合)
  • OOD 成功率持续上升——2M 步后达 87.5%,比原始 VLA 提升约 30%
  • 最终选择 10k 步 SFT + 0.6M 步 RL 作为平衡点

5.4 各阶段逐步分析

论文详细展示了压缩流水线每个中间模型的成功率:

模型配置IND SR (%)OOD SR (%)
Dense(原始)89.157.8
90% 结构化剪枝0.00.0
+ SFT84.448.4
+ SFT + 4bit79.743.9
+ SFT + RL90.662.5
+ SFT + RL + 4bit85.954.7

关键观察

  • 90% 剪枝后性能完全归零
  • SFT 恢复到 84.4%(IND),但低于原始的 89.1%
  • RL 在 SFT 基础上进一步提升到 90.6%,超越原始模型
  • 4-bit 量化带来约 5pp 的性能损失,但换来极致的显存压缩

5.5 消融:SFT 先于 RL 的必要性

直接对剪枝后的 VLA 做 RL(跳过 SFT):

  • 2M 步后 IND 和 OOD 成功率仍接近 0%
  • 原因:剪枝后的模型没有任何任务能力,RL 无法有效探索

SFT + RL 的组合:

  • RL 训练效率显著更高,收敛更快
  • OOD 任务上 2M 步后达到 85%,远超原始 VLA

用大白话说:SFT 像是给学生先教基础知识,RL 像是让学生通过实践自我提升。没有基础知识直接实践,学生完全不知道该做什么。


六、局限性与未来方向

6.1 额外训练开销

RLRC 需要 SFT 和 RL 两个训练阶段,相比 VLA-Cache 等无需训练的方法,部署前的准备时间更长。

6.2 依赖并行仿真环境

RL 组件需要并行化的仿真环境(ManiSkill3)来高效训练,这对真实机器人平台来说是一个限制。需要更好的 sim-to-real 迁移方法。

6.3 剪枝策略缺乏机器人任务特异性

当前直接使用面向 LLM 的剪枝方法(LLM-Pruner),没有结合机器人数据进行 calibration。设计面向 embodied task 的专用剪枝策略可能获得更好的压缩-性能权衡。


七、个人思考

7.1 与 VLA-Cache 的互补性

RLRC 和 VLA-Cache 解决同一个大问题(VLA 部署效率)但从完全不同的角度:

维度RLRCVLA-Cache
压缩目标模型本身(参数量/显存)推理计算(跳过冗余 token)
核心技术结构化剪枝 + RL 恢复 + 量化跨帧 KV 缓存复用
是否需要训练需要(SFT + RL)不需要
显存压缩几乎无
推理加速2.3×1.7×
对原始模型的影响修改模型架构不修改模型

两者理论上完全可以叠加:先用 RLRC 压缩模型本身,再用 VLA-Cache 加速推理中的冗余计算。这可能是最终在边端设备上部署 VLA 的实际路径。

7.2 RL 在 VLA 压缩中的独特价值

RLRC 最让人兴奋的发现是:RL 不仅能恢复剪枝损失的性能,还能超越原始模型——特别是在 OOD 任务上。这与 RLVLA 的实证研究一致:RL 在泛化维度上显著优于 SFT。

更深层的启示是:VLA 的 LLM 组件存在巨大冗余。90% 的参数被移除后,只要有合适的恢复策略,模型不仅能保持原有能力,还能通过 RL 探索找到更好的策略。这暗示当前的 VLA 模型远未达到参数效率的极限。

7.3 与 RPD 的关系

RPD 也研究了「大模型 → 小模型」的知识迁移路径,但方向不同:RPD 是将 VLA 的知识蒸馏到从零训练的小型 RL 策略,而 RLRC 是直接对 VLA 本身做剪枝再恢复。RLRC 的优势在于保留了 VLA 的完整视觉-语言理解能力,而 RPD 的轻量策略则完全放弃了这些能力。

7.4 量化的边际收益递减

RLRC 的前期实验清楚地展示了一个重要规律:随着剪枝率增加,量化带来的速度收益递减。在高剪枝率下,模型本身已经很小,反量化操作的开销占比反而增大,甚至可能导致量化后比全精度更慢。这对未来设计压缩流水线有重要参考价值——剪枝和量化不是简单叠加的关系。


参考

  • OpenVLA — 开源 VLA 基座模型(RLRC 的实验基础)
  • LLM-Pruner — RLRC 采用的结构化剪枝框架
  • VLA-Cache — 训练无关跨帧 Token 缓存加速(互补方法)
  • RLVLA — RL 提升 VLA 泛化的系统性实证(共享 Actor-Critic 设计)
  • RPD — VLA → RL 专家的策略蒸馏(另一种大→小迁移路径)
  • FLAP — 基于波动的自适应结构化剪枝