RLRC:基于强化学习恢复的 VLA 模型压缩框架
作者:Yuxuan Chen, Xiao Li
机构:Shanghai Jiao Tong University
发布时间:2025年6月
分类标签:
VLA 压缩结构化剪枝RL 恢复量化
一句话总结
提出三阶段 VLA 压缩流水线(结构化剪枝 + SFT/RL 性能恢复 + 4-bit 量化),在 90% 剪枝率下通过 RL 恢复甚至超越原始 VLA 性能,实现 8× 内存压缩和 2.3× 推理加速。
一、问题与动机
1.1 VLA 的部署困境
VLA 模型(如 OpenVLA 7.5B)基于大规模 VLM 构建,虽然在机器人操控任务上展现了强大的泛化能力,但面临严重的部署瓶颈:
- 参数量巨大:OpenVLA 有 7.54B 参数,需要约 15GB 显存
- 推理延迟高:单步推理约 169ms,难以满足实时控制需求
- 边端设备受限:机器人平台通常算力和内存有限,无法承载如此大的模型
1.2 现有压缩方法的不足
已有的 VLA 加速策略各有局限:
轻量架构替换(TinyVLA、SmolVLA 等):
- 换用小模型作为骨架,但需要从头训练,且能力上限受限于小模型本身
Token 级优化(VLA-Cache、FlashVLA 等):
- 通过减少冗余 token 计算来加速推理
- 但压缩比有限,且不减少模型本身的内存占用
传统模型压缩(量化、剪枝、蒸馏):
- 已在 LLM 上广泛使用,但直接迁移到 VLA 的效果缺乏系统性研究
- 特别是结构化剪枝在高压缩率下性能断崖式下降,如何恢复是核心挑战
1.3 RLRC 的核心洞察
RLRC 通过前期实验发现了两个关键事实:
发现一:结构化剪枝即使在 90% 的极端剪枝率下,经过 SFT 仍能恢复大部分性能。 这说明 VLA 的 LLM 组件存在巨大的冗余空间。
发现二:SFT 只能恢复到接近但不及原始性能的水平,而 RL 能进一步提升,甚至超越原始模型。 RL 的探索性使其能发现 SFT 数据中不存在的更优策略。
基于这两个发现,RLRC 设计了一套「先大幅剪枝、再恢复增强」的分阶段压缩策略。
二、预备知识
2.1 VLA 的训练范式
VLA 训练通常分为两阶段:在大规模多模态数据上预训练,再在特定机器人数据集上 SFT。训练目标是最大化动作序列的对数似然:
其中
2.2 量化
量化通过将浮点权重映射到低精度整数来减少内存:
其中
- PTQ(训练后量化):直接量化预训练模型,无需修改权重
- QAT(量化感知训练):在训练中引入量化效应
2.3 结构化剪枝 vs 非结构化剪枝
- 非结构化剪枝:移除单个权重,产生不规则稀疏模式,硬件难以利用
- 结构化剪枝:移除整个神经元/注意力头/通道,保持架构规整,硬件友好,但对性能影响更大
2.4 PPO 强化学习
RLRC 使用 PPO 作为 RL 算法,目标函数为:
其中
三、前期探索:模型压缩技术在 VLA 上的适用性
RLRC 的核心方法建立在系统性的前期实验之上。所有实验基于 OpenVLA,在 LIBERO 基准上评估。
3.1 量化对 VLA 的影响
| 模型 | Spatial | Long | 参数量 (B) | 显存 (GB) | 推理延迟 (ms) | 吞吐量 (samples/s) |
|---|---|---|---|---|---|---|
| OpenVLA | 84.7 | 53.7 | 7.54 | 14.858 | 169 | 5.9 |
| + 8bit | 84.6 | 52.0 | 7.54 | 7.949 | 282.7 | 3.5 |
| + 4bit | 81.0 | 49.8 | 7.54 | 4.971 | 134.1 | 7.5 |
关键发现:
- 量化对性能影响很小(4-bit 仅降 3.7pp),但显存压缩显著(压到原来的 1/3)
- 8-bit 量化(LLM.int8())反而更慢——反量化操作引入额外开销
- 4-bit 量化在速度和显存上取得较好平衡
3.2 剪枝对 VLA 的影响
| 模型 | Spatial | Spatial(SFT) | Long | Long(SFT) | 显存 (GB) | 吞吐量 |
|---|---|---|---|---|---|---|
| OpenVLA | 84.7 | – | 53.7 | – | 14.858 | 5.9 |
| + Magnitude(非结构化) | 83.4 | 80.4 | 51.8 | 50.6 | 14.826 | 6.2 |
| + Wanda(非结构化) | 84.0 | 84.6 | 49.8 | 50.6 | 14.824 | 6.0 |
| + LLM-Pruner(结构化) | 23.4 | 84.0 | 1.0 | 46.0 | 12.433 | 7.2 |
| + FLAP(结构化) | 0.2 | 82.6 | 0.0 | 50.2 | 12.510 | 7.4 |
以上剪枝均在 20% 剪枝率下进行。
关键发现:
- 非结构化剪枝:性能损失小,但显存和速度几乎无改善(硬件无法利用不规则稀疏)
- 结构化剪枝:直接剪枝后性能崩溃(FLAP: 0.2%),但 SFT 后能恢复到 82.6%
- 这揭示了关键规律:结构化剪枝 + SFT = 真实加速 + 可恢复的性能
3.3 高剪枝率下的表现
实验进一步探索了不同剪枝率的影响:
- 结构化剪枝在 20% 时性能就几乎归零
- 但 SFT 后,即使 90% 参数被移除,仍能恢复大部分性能
- 这是 RLRC 采用 90% 激进剪枝率的核心动机
3.4 量化 + 剪枝的叠加效果
| 方法 | Spatial | 显存 (GB) | 吞吐量 |
|---|---|---|---|
| Dense | 84.7 | 14.858 | 5.9 |
| LLM-Pruner 90% + SFT | 79.6 | 3.539 | 15.2 |
| LLM-Pruner 90% + SFT + 8bit | 76.6 | 2.205 | 3.9 |
| LLM-Pruner 90% + SFT + 4bit | 70.4 | 1.665 | 11.2 |
关键发现:
- 90% 剪枝 + 4-bit 量化可以将显存压到原来的 1/8(14.858 → 1.665 GB)
- 性能下降约 14pp,但这为 RLRC 的 RL 恢复阶段留下了提升空间
- 高剪枝率下量化的速度收益递减——模型本身已很小,反量化开销占比增大
四、核心方法:RLRC 三阶段流水线
4.1 第一阶段:VLA 结构化剪枝
RLRC 使用 LLM-Pruner 对 VLA 的 LLM 组件进行结构化剪枝。
步骤:
构建结构依赖图:分析 LLM 内部的参数耦合关系(如同一注意力头的 Q/K/V 投影必须同步裁剪)
评估重要性:对每个结构组
计算重要性分数 (采用 Taylor 重要性准则),按分数排序后裁剪最不重要的组:
保护首尾层:保留第一层和最后一层解码器不剪枝,仅对中间层施加剪枝,以维持模型的表征能力和稳定性
剪枝粒度:block-wise 级别,采用 90% 全局剪枝率
剪枝前后的架构变化:
以 LLaMA 架构为例:
- Attention 层:
, 同理, - MLP 层:
,
中间维度大幅缩减,但输入输出维度不变,保持与上下游模块的兼容性。
4.2 第二阶段:SFT + RL 性能恢复
这是 RLRC 的核心创新。剪枝后的 VLA 性能几乎归零,需要通过两阶段恢复。
4.2.1 SFT 恢复
先用任务特定数据对剪枝后的 VLA 进行 SFT,使其适应缩小后的架构。
- SFT 只需约 10k 步即可恢复大部分性能
- 继续增加 SFT 步数反而导致性能下降(过拟合)
- SFT 后的模型虽然接近但始终略低于原始 VLA
4.2.2 RL 恢复(PPO)
在 SFT 基础上进一步用 RL 优化:
Actor-Critic 设计:遵循 RLVLA 的设计,Actor 和 Critic 共享完整的 Transformer 骨架。从最后一个 Transformer Block 的第一个动作 token 位置提取隐表征
稀疏奖励:
RL 的独特优势:
- RL 的探索性使模型能发现 SFT 数据中不存在的行为模式
- OOD 任务上 RL 的提升尤为显著——2M 步训练后 OOD 成功率达 87.5%,比原始 VLA 提升约 30%
- 剪枝后的小模型训练效率更高,天然适合 RLFT
SFT 先于 RL 的必要性(消融实验证实):
- 直接对剪枝模型做 RL:2M 步后仍然几乎无效
- SFT + RL:快速收敛,显著提升
- 原因:SFT 提供了合理的初始策略(warm start),RL 需要这个起点来有效探索
4.3 第三阶段:可选的 4-bit 量化
在 SFT + RL 恢复后,模型已达到甚至超越原始性能。此时可进一步施加 4-bit 量化:
- 显存进一步大幅压缩(3.856 → 1.772 GB)
- 代价是轻微的性能下降和推理延迟增加(反量化开销)
- 如果目标设备显存充足,可以跳过此步
五、实验结果
5.1 实验设置
基准环境:ManiSkill3(支持并行环境,适合 RL 训练)
任务集:PutOnPlateInScene25Main(来自 RLVLA),使用 8-DoF WidowX-250S 机械臂抓取物体并放到盘子上
- IND(分布内):16 个训练时可见的任务
- OOD(分布外):9 个未见任务
评估指标:成功率、显存占用、推理延迟、动作吞吐量
硬件:NVIDIA RTX 5880 Ada
5.2 与其他方法的对比
| 方法 | IND SR (%) | OOD SR (%) | 显存 (GB) | 推理延迟 (ms) | 吞吐量 (samples/s) |
|---|---|---|---|---|---|
| OpenVLA(基线) | 89.06 | 57.81 | 14.858 | 169.00 | 5.9 |
| VLA-Cache | 87.50 | 59.38 | 14.794 | 125.18 | 8.0 |
| OpenVLA + 4bit | 85.93 | 56.25 | 4.971 | 134.10 | 7.5 |
| OpenVLA + LLM-Pruner(20%) | 21.86 | 14.06 | 12.433 | 139.39 | 7.2 |
| RLRC | 90.62 | 62.50 | 3.856 | 74.07 | 13.5 |
| RLRC-4bit | 85.93 | 54.68 | 1.772 | 100.77 | 9.9 |
核心数字:
- RLRC 实现 8× 显存压缩(14.858 → 1.772 GB)和 2.3× 吞吐提升(5.9 → 13.5 samples/s)
- IND 成功率 90.62%,超越原始 VLA 的 89.06%
- OOD 成功率 62.50%,比原始 VLA 提升 4.7pp
- 即使叠加 4-bit 量化,IND 仍达 85.93%,显存仅 1.772 GB
5.3 SFT 和 RL 的训练曲线
SFT 阶段:
- 约 10k 步即可收敛
- 超过 10k 步性能反而下降
RL 阶段:
- IND 成功率随训练先升后降(可能过拟合)
- OOD 成功率持续上升——2M 步后达 87.5%,比原始 VLA 提升约 30%
- 最终选择 10k 步 SFT + 0.6M 步 RL 作为平衡点
5.4 各阶段逐步分析
论文详细展示了压缩流水线每个中间模型的成功率:
| 模型配置 | IND SR (%) | OOD SR (%) |
|---|---|---|
| Dense(原始) | 89.1 | 57.8 |
| 90% 结构化剪枝 | 0.0 | 0.0 |
| + SFT | 84.4 | 48.4 |
| + SFT + 4bit | 79.7 | 43.9 |
| + SFT + RL | 90.6 | 62.5 |
| + SFT + RL + 4bit | 85.9 | 54.7 |
关键观察:
- 90% 剪枝后性能完全归零
- SFT 恢复到 84.4%(IND),但低于原始的 89.1%
- RL 在 SFT 基础上进一步提升到 90.6%,超越原始模型
- 4-bit 量化带来约 5pp 的性能损失,但换来极致的显存压缩
5.5 消融:SFT 先于 RL 的必要性
直接对剪枝后的 VLA 做 RL(跳过 SFT):
- 2M 步后 IND 和 OOD 成功率仍接近 0%
- 原因:剪枝后的模型没有任何任务能力,RL 无法有效探索
SFT + RL 的组合:
- RL 训练效率显著更高,收敛更快
- OOD 任务上 2M 步后达到 85%,远超原始 VLA
用大白话说:SFT 像是给学生先教基础知识,RL 像是让学生通过实践自我提升。没有基础知识直接实践,学生完全不知道该做什么。
六、局限性与未来方向
6.1 额外训练开销
RLRC 需要 SFT 和 RL 两个训练阶段,相比 VLA-Cache 等无需训练的方法,部署前的准备时间更长。
6.2 依赖并行仿真环境
RL 组件需要并行化的仿真环境(ManiSkill3)来高效训练,这对真实机器人平台来说是一个限制。需要更好的 sim-to-real 迁移方法。
6.3 剪枝策略缺乏机器人任务特异性
当前直接使用面向 LLM 的剪枝方法(LLM-Pruner),没有结合机器人数据进行 calibration。设计面向 embodied task 的专用剪枝策略可能获得更好的压缩-性能权衡。
七、个人思考
7.1 与 VLA-Cache 的互补性
RLRC 和 VLA-Cache 解决同一个大问题(VLA 部署效率)但从完全不同的角度:
| 维度 | RLRC | VLA-Cache |
|---|---|---|
| 压缩目标 | 模型本身(参数量/显存) | 推理计算(跳过冗余 token) |
| 核心技术 | 结构化剪枝 + RL 恢复 + 量化 | 跨帧 KV 缓存复用 |
| 是否需要训练 | 需要(SFT + RL) | 不需要 |
| 显存压缩 | 8× | 几乎无 |
| 推理加速 | 2.3× | 1.7× |
| 对原始模型的影响 | 修改模型架构 | 不修改模型 |
两者理论上完全可以叠加:先用 RLRC 压缩模型本身,再用 VLA-Cache 加速推理中的冗余计算。这可能是最终在边端设备上部署 VLA 的实际路径。
7.2 RL 在 VLA 压缩中的独特价值
RLRC 最让人兴奋的发现是:RL 不仅能恢复剪枝损失的性能,还能超越原始模型——特别是在 OOD 任务上。这与 RLVLA 的实证研究一致:RL 在泛化维度上显著优于 SFT。
更深层的启示是:VLA 的 LLM 组件存在巨大冗余。90% 的参数被移除后,只要有合适的恢复策略,模型不仅能保持原有能力,还能通过 RL 探索找到更好的策略。这暗示当前的 VLA 模型远未达到参数效率的极限。
7.3 与 RPD 的关系
RPD 也研究了「大模型 → 小模型」的知识迁移路径,但方向不同:RPD 是将 VLA 的知识蒸馏到从零训练的小型 RL 策略,而 RLRC 是直接对 VLA 本身做剪枝再恢复。RLRC 的优势在于保留了 VLA 的完整视觉-语言理解能力,而 RPD 的轻量策略则完全放弃了这些能力。
7.4 量化的边际收益递减
RLRC 的前期实验清楚地展示了一个重要规律:随着剪枝率增加,量化带来的速度收益递减。在高剪枝率下,模型本身已经很小,反量化操作的开销占比反而增大,甚至可能导致量化后比全精度更慢。这对未来设计压缩流水线有重要参考价值——剪枝和量化不是简单叠加的关系。