RLRC：基于强化学习恢复的 VLA 模型压缩框架

作者：Yuxuan Chen, Xiao Li
机构：Shanghai Jiao Tong University
发布时间：2025年6月
论文链接：arXiv | 项目主页
分类标签：VLA 压缩 结构化剪枝 RL 恢复 量化

一句话总结

提出三阶段 VLA 压缩流水线（结构化剪枝 + SFT/RL 性能恢复 + 4-bit 量化），在 90% 剪枝率下通过 RL 恢复甚至超越原始 VLA 性能，实现 8× 内存压缩和 2.3× 推理加速。

一、问题与动机

1.1 VLA 的部署困境

VLA 模型（如 OpenVLA 7.5B）基于大规模 VLM 构建，虽然在机器人操控任务上展现了强大的泛化能力，但面临严重的部署瓶颈：

参数量巨大：OpenVLA 有 7.54B 参数，需要约 15GB 显存
推理延迟高：单步推理约 169ms，难以满足实时控制需求
边端设备受限：机器人平台通常算力和内存有限，无法承载如此大的模型

1.2 现有压缩方法的不足

已有的 VLA 加速策略各有局限：

轻量架构替换（TinyVLA、SmolVLA 等）：

换用小模型作为骨架，但需要从头训练，且能力上限受限于小模型本身

Token 级优化（VLA-Cache、FlashVLA 等）：

通过减少冗余 token 计算来加速推理
但压缩比有限，且不减少模型本身的内存占用

传统模型压缩（量化、剪枝、蒸馏）：

已在 LLM 上广泛使用，但直接迁移到 VLA 的效果缺乏系统性研究
特别是结构化剪枝在高压缩率下性能断崖式下降，如何恢复是核心挑战

1.3 RLRC 的核心洞察

RLRC 通过前期实验发现了两个关键事实：

发现一：结构化剪枝即使在 90% 的极端剪枝率下，经过 SFT 仍能恢复大部分性能。 这说明 VLA 的 LLM 组件存在巨大的冗余空间。

发现二：SFT 只能恢复到接近但不及原始性能的水平，而 RL 能进一步提升，甚至超越原始模型。 RL 的探索性使其能发现 SFT 数据中不存在的更优策略。

基于这两个发现，RLRC 设计了一套「先大幅剪枝、再恢复增强」的分阶段压缩策略。

二、预备知识

2.1 VLA 的训练范式

VLA 训练通常分为两阶段：在大规模多模态数据上预训练，再在特定机器人数据集上 SFT。训练目标是最大化动作序列的对数似然：

L (θ) = - E_{(o, a, q) \sim D} [\sum_{t = 1}^{T} \log π_{θ} (a_{t} ∣ o_{t}, q_{t})]

其中 $o$ 是观测（视觉 $I$ + 语言指令 $l$ ）， $a$ 是动作， $q$ 是本体感觉。

2.2 量化

量化通过将浮点权重映射到低精度整数来减少内存：

\hat{w} = round (\frac{w}{s}), w \approx s \cdot \hat{w}

其中 $s$ 是缩放因子。主要分为：

PTQ（训练后量化）：直接量化预训练模型，无需修改权重
QAT（量化感知训练）：在训练中引入量化效应

2.3 结构化剪枝 vs 非结构化剪枝

非结构化剪枝：移除单个权重，产生不规则稀疏模式，硬件难以利用
结构化剪枝：移除整个神经元/注意力头/通道，保持架构规整，硬件友好，但对性能影响更大

2.4 PPO 强化学习

RLRC 使用 PPO 作为 RL 算法，目标函数为：

L^{θ} = E_{t} [min (r_{t} (θ) {\hat{A}}_{t}, clip (r_{t} (θ), 1 - ϵ, 1 + ϵ) {\hat{A}}_{t})]

其中 $r_{t} (θ) = \frac{π_{θ} (a_{t} | s_{t})}{π_{θ_{old}} (a_{t} | s_{t})}$ 是新旧策略的概率比， ${\hat{A}}_{t}$ 是优势函数估计， $ϵ$ 控制裁剪范围。

三、前期探索：模型压缩技术在 VLA 上的适用性

RLRC 的核心方法建立在系统性的前期实验之上。所有实验基于 OpenVLA，在 LIBERO 基准上评估。

3.1 量化对 VLA 的影响

模型	Spatial	Long	参数量 (B)	显存 (GB)	推理延迟 (ms)	吞吐量 (samples/s)
OpenVLA	84.7	53.7	7.54	14.858	169	5.9
+ 8bit	84.6	52.0	7.54	7.949	282.7	3.5
+ 4bit	81.0	49.8	7.54	4.971	134.1	7.5

关键发现：

量化对性能影响很小（4-bit 仅降 3.7pp），但显存压缩显著（压到原来的 1/3）
8-bit 量化（LLM.int8()）反而更慢——反量化操作引入额外开销
4-bit 量化在速度和显存上取得较好平衡

3.2 剪枝对 VLA 的影响

模型	Spatial	Spatial(SFT)	Long	Long(SFT)	显存 (GB)	吞吐量
OpenVLA	84.7	–	53.7	–	14.858	5.9
+ Magnitude（非结构化）	83.4	80.4	51.8	50.6	14.826	6.2
+ Wanda（非结构化）	84.0	84.6	49.8	50.6	14.824	6.0
+ LLM-Pruner（结构化）	23.4	84.0	1.0	46.0	12.433	7.2
+ FLAP（结构化）	0.2	82.6	0.0	50.2	12.510	7.4

以上剪枝均在 20% 剪枝率下进行。

关键发现：

非结构化剪枝：性能损失小，但显存和速度几乎无改善（硬件无法利用不规则稀疏）
结构化剪枝：直接剪枝后性能崩溃（FLAP: 0.2%），但 SFT 后能恢复到 82.6%
这揭示了关键规律：结构化剪枝 + SFT = 真实加速 + 可恢复的性能

3.3 高剪枝率下的表现

实验进一步探索了不同剪枝率的影响：

结构化剪枝在 20% 时性能就几乎归零
但 SFT 后，即使 90% 参数被移除，仍能恢复大部分性能
这是 RLRC 采用 90% 激进剪枝率的核心动机

3.4 量化 + 剪枝的叠加效果

方法	Spatial	显存 (GB)	吞吐量
Dense	84.7	14.858	5.9
LLM-Pruner 90% + SFT	79.6	3.539	15.2
LLM-Pruner 90% + SFT + 8bit	76.6	2.205	3.9
LLM-Pruner 90% + SFT + 4bit	70.4	1.665	11.2

关键发现：

90% 剪枝 + 4-bit 量化可以将显存压到原来的 1/8（14.858 → 1.665 GB）
性能下降约 14pp，但这为 RLRC 的 RL 恢复阶段留下了提升空间
高剪枝率下量化的速度收益递减——模型本身已很小，反量化开销占比增大

四、核心方法：RLRC 三阶段流水线

4.1 第一阶段：VLA 结构化剪枝

RLRC 使用 LLM-Pruner 对 VLA 的 LLM 组件进行结构化剪枝。

步骤：

构建结构依赖图：分析 LLM 内部的参数耦合关系（如同一注意力头的 Q/K/V 投影必须同步裁剪）
评估重要性：对每个结构组 $g$ 计算重要性分数 $I (g)$ （采用 Taylor 重要性准则），按分数排序后裁剪最不重要的组：

G_{pruned} = {Top-k}_{g \in G}^{min} {I (g)}, G_{retained} = G ∖ G_{pruned}

保护首尾层：保留第一层和最后一层解码器不剪枝，仅对中间层施加剪枝，以维持模型的表征能力和稳定性
剪枝粒度：block-wise 级别，采用 90% 全局剪枝率

剪枝前后的架构变化：

以 LLaMA 架构为例：

Attention 层： $Q (4096, 4096) \to Q (4096, 256)$ ， $K / V$ 同理， $O (4096, 4096) \to O (256, 4096)$
MLP 层： $gate/up (4096, 11008) \to (4096, 550)$ ， $down (11008, 4096) \to (550, 4096)$

中间维度大幅缩减，但输入输出维度不变，保持与上下游模块的兼容性。

4.2 第二阶段：SFT + RL 性能恢复

这是 RLRC 的核心创新。剪枝后的 VLA 性能几乎归零，需要通过两阶段恢复。

4.2.1 SFT 恢复

先用任务特定数据对剪枝后的 VLA 进行 SFT，使其适应缩小后的架构。

SFT 只需约 10k 步即可恢复大部分性能
继续增加 SFT 步数反而导致性能下降（过拟合）
SFT 后的模型虽然接近但始终略低于原始 VLA

4.2.2 RL 恢复（PPO）

在 SFT 基础上进一步用 RL 优化：

Actor-Critic 设计：遵循 RLVLA 的设计，Actor 和 Critic 共享完整的 Transformer 骨架。从最后一个 Transformer Block 的第一个动作 token 位置提取隐表征 $h_{0}$ ，输入轻量 MLP 回归出标量状态值。这种共享设计大幅降低 PPO 训练的显存开销。

稀疏奖励：

r_{t} = {\begin{cases} 1.0, & 物体被成功放置 \\ 0.1, & 物体被抓取 \\ 0, & 其他 \end{cases}

RL 的独特优势：

RL 的探索性使模型能发现 SFT 数据中不存在的行为模式
OOD 任务上 RL 的提升尤为显著——2M 步训练后 OOD 成功率达 87.5%，比原始 VLA 提升约 30%
剪枝后的小模型训练效率更高，天然适合 RLFT

SFT 先于 RL 的必要性（消融实验证实）：

直接对剪枝模型做 RL：2M 步后仍然几乎无效
SFT + RL：快速收敛，显著提升
原因：SFT 提供了合理的初始策略（warm start），RL 需要这个起点来有效探索

4.3 第三阶段：可选的 4-bit 量化

在 SFT + RL 恢复后，模型已达到甚至超越原始性能。此时可进一步施加 4-bit 量化：

显存进一步大幅压缩（3.856 → 1.772 GB）
代价是轻微的性能下降和推理延迟增加（反量化开销）
如果目标设备显存充足，可以跳过此步

五、实验结果

5.1 实验设置

基准环境：ManiSkill3（支持并行环境，适合 RL 训练）

任务集：PutOnPlateInScene25Main（来自 RLVLA），使用 8-DoF WidowX-250S 机械臂抓取物体并放到盘子上

IND（分布内）：16 个训练时可见的任务
OOD（分布外）：9 个未见任务

评估指标：成功率、显存占用、推理延迟、动作吞吐量

硬件：NVIDIA RTX 5880 Ada

5.2 与其他方法的对比

方法	IND SR (%)	OOD SR (%)	显存 (GB)	推理延迟 (ms)	吞吐量 (samples/s)
OpenVLA（基线）	89.06	57.81	14.858	169.00	5.9
VLA-Cache	87.50	59.38	14.794	125.18	8.0
OpenVLA + 4bit	85.93	56.25	4.971	134.10	7.5
OpenVLA + LLM-Pruner（20%）	21.86	14.06	12.433	139.39	7.2
RLRC	90.62	62.50	3.856	74.07	13.5
RLRC-4bit	85.93	54.68	1.772	100.77	9.9

核心数字：

RLRC 实现 8× 显存压缩（14.858 → 1.772 GB）和 2.3× 吞吐提升（5.9 → 13.5 samples/s）
IND 成功率 90.62%，超越原始 VLA 的 89.06%
OOD 成功率 62.50%，比原始 VLA 提升 4.7pp
即使叠加 4-bit 量化，IND 仍达 85.93%，显存仅 1.772 GB

5.3 SFT 和 RL 的训练曲线

SFT 阶段：

约 10k 步即可收敛
超过 10k 步性能反而下降

RL 阶段：

IND 成功率随训练先升后降（可能过拟合）
OOD 成功率持续上升——2M 步后达 87.5%，比原始 VLA 提升约 30%
最终选择 10k 步 SFT + 0.6M 步 RL 作为平衡点

5.4 各阶段逐步分析

论文详细展示了压缩流水线每个中间模型的成功率：

模型配置	IND SR (%)	OOD SR (%)
Dense（原始）	89.1	57.8
90% 结构化剪枝	0.0	0.0
+ SFT	84.4	48.4
+ SFT + 4bit	79.7	43.9
+ SFT + RL	90.6	62.5
+ SFT + RL + 4bit	85.9	54.7

关键观察：

90% 剪枝后性能完全归零
SFT 恢复到 84.4%（IND），但低于原始的 89.1%
RL 在 SFT 基础上进一步提升到 90.6%，超越原始模型
4-bit 量化带来约 5pp 的性能损失，但换来极致的显存压缩

5.5 消融：SFT 先于 RL 的必要性

直接对剪枝后的 VLA 做 RL（跳过 SFT）：

2M 步后 IND 和 OOD 成功率仍接近 0%
原因：剪枝后的模型没有任何任务能力，RL 无法有效探索

SFT + RL 的组合：

RL 训练效率显著更高，收敛更快
OOD 任务上 2M 步后达到 85%，远超原始 VLA

用大白话说：SFT 像是给学生先教基础知识，RL 像是让学生通过实践自我提升。没有基础知识直接实践，学生完全不知道该做什么。

六、局限性与未来方向

6.1 额外训练开销

RLRC 需要 SFT 和 RL 两个训练阶段，相比 VLA-Cache 等无需训练的方法，部署前的准备时间更长。

6.2 依赖并行仿真环境

RL 组件需要并行化的仿真环境（ManiSkill3）来高效训练，这对真实机器人平台来说是一个限制。需要更好的 sim-to-real 迁移方法。

6.3 剪枝策略缺乏机器人任务特异性

当前直接使用面向 LLM 的剪枝方法（LLM-Pruner），没有结合机器人数据进行 calibration。设计面向 embodied task 的专用剪枝策略可能获得更好的压缩-性能权衡。

七、个人思考

7.1 与 VLA-Cache 的互补性

RLRC 和 VLA-Cache 解决同一个大问题（VLA 部署效率）但从完全不同的角度：

维度	RLRC	VLA-Cache
压缩目标	模型本身（参数量/显存）	推理计算（跳过冗余 token）
核心技术	结构化剪枝 + RL 恢复 + 量化	跨帧 KV 缓存复用
是否需要训练	需要（SFT + RL）	不需要
显存压缩	8×	几乎无
推理加速	2.3×	1.7×
对原始模型的影响	修改模型架构	不修改模型

两者理论上完全可以叠加：先用 RLRC 压缩模型本身，再用 VLA-Cache 加速推理中的冗余计算。这可能是最终在边端设备上部署 VLA 的实际路径。

7.2 RL 在 VLA 压缩中的独特价值

RLRC 最让人兴奋的发现是：RL 不仅能恢复剪枝损失的性能，还能超越原始模型——特别是在 OOD 任务上。这与 RLVLA 的实证研究一致：RL 在泛化维度上显著优于 SFT。

更深层的启示是：VLA 的 LLM 组件存在巨大冗余。90% 的参数被移除后，只要有合适的恢复策略，模型不仅能保持原有能力，还能通过 RL 探索找到更好的策略。这暗示当前的 VLA 模型远未达到参数效率的极限。

7.3 与 RPD 的关系

RPD 也研究了「大模型 → 小模型」的知识迁移路径，但方向不同：RPD 是将 VLA 的知识蒸馏到从零训练的小型 RL 策略，而 RLRC 是直接对 VLA 本身做剪枝再恢复。RLRC 的优势在于保留了 VLA 的完整视觉-语言理解能力，而 RPD 的轻量策略则完全放弃了这些能力。

7.4 量化的边际收益递减

RLRC 的前期实验清楚地展示了一个重要规律：随着剪枝率增加，量化带来的速度收益递减。在高剪枝率下，模型本身已经很小，反量化操作的开销占比反而增大，甚至可能导致量化后比全精度更慢。这对未来设计压缩流水线有重要参考价值——剪枝和量化不是简单叠加的关系。

参考

OpenVLA — 开源 VLA 基座模型（RLRC 的实验基础）
LLM-Pruner — RLRC 采用的结构化剪枝框架
VLA-Cache — 训练无关跨帧 Token 缓存加速（互补方法）
RLVLA — RL 提升 VLA 泛化的系统性实证（共享 Actor-Critic 设计）
RPD — VLA → RL 专家的策略蒸馏（另一种大→小迁移路径）
FLAP — 基于波动的自适应结构化剪枝

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

RLRC：基于强化学习恢复的 VLA 模型压缩框架 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 的部署困境 ​

1.2 现有压缩方法的不足 ​

1.3 RLRC 的核心洞察 ​

二、预备知识 ​

2.1 VLA 的训练范式 ​

2.2 量化 ​

2.3 结构化剪枝 vs 非结构化剪枝 ​

2.4 PPO 强化学习 ​

三、前期探索：模型压缩技术在 VLA 上的适用性 ​

3.1 量化对 VLA 的影响 ​

3.2 剪枝对 VLA 的影响 ​

3.3 高剪枝率下的表现 ​

3.4 量化 + 剪枝的叠加效果 ​

四、核心方法：RLRC 三阶段流水线 ​

4.1 第一阶段：VLA 结构化剪枝 ​

4.2 第二阶段：SFT + RL 性能恢复 ​

4.2.1 SFT 恢复 ​

4.2.2 RL 恢复（PPO） ​

4.3 第三阶段：可选的 4-bit 量化 ​

五、实验结果 ​

5.1 实验设置 ​

5.2 与其他方法的对比 ​

5.3 SFT 和 RL 的训练曲线 ​

5.4 各阶段逐步分析 ​

5.5 消融：SFT 先于 RL 的必要性 ​

六、局限性与未来方向 ​

6.1 额外训练开销 ​

6.2 依赖并行仿真环境 ​

6.3 剪枝策略缺乏机器人任务特异性 ​

七、个人思考 ​

7.1 与 VLA-Cache 的互补性 ​

7.2 RL 在 VLA 压缩中的独特价值 ​

7.3 与 RPD 的关系 ​

7.4 量化的边际收益递减 ​

参考 ​

RLRC：基于强化学习恢复的 VLA 模型压缩框架

一句话总结

一、问题与动机

1.1 VLA 的部署困境

1.2 现有压缩方法的不足

1.3 RLRC 的核心洞察

二、预备知识

2.1 VLA 的训练范式

2.2 量化

2.3 结构化剪枝 vs 非结构化剪枝

2.4 PPO 强化学习

三、前期探索：模型压缩技术在 VLA 上的适用性

3.1 量化对 VLA 的影响

3.2 剪枝对 VLA 的影响

3.3 高剪枝率下的表现

3.4 量化 + 剪枝的叠加效果

四、核心方法：RLRC 三阶段流水线

4.1 第一阶段：VLA 结构化剪枝

4.2 第二阶段：SFT + RL 性能恢复

4.2.1 SFT 恢复

4.2.2 RL 恢复（PPO）

4.3 第三阶段：可选的 4-bit 量化

五、实验结果

5.1 实验设置

5.2 与其他方法的对比

5.3 SFT 和 RL 的训练曲线

5.4 各阶段逐步分析

5.5 消融：SFT 先于 RL 的必要性

六、局限性与未来方向

6.1 额外训练开销

6.2 依赖并行仿真环境

6.3 剪枝策略缺乏机器人任务特异性

七、个人思考

7.1 与 VLA-Cache 的互补性

7.2 RL 在 VLA 压缩中的独特价值

7.3 与 RPD 的关系

7.4 量化的边际收益递减

参考