SimpleVLA-RL：用在线 RL 扩展 VLA 训练——原理详解

论文：SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
作者：Haozhan Li*, Yuxin Zuo*, Jiale Yu*, Yuhao Zhang* 等
机构：清华大学、上海 AI Lab、上海交通大学、北京大学、香港大学、Nature Will、Frontis.AI
发布时间：2025 年 5 月（ICLR 2026）
链接：arXiv | 代码

一句话总结

SimpleVLA-RL 基于 veRL 框架构建面向 VLA 的端到端在线 RL 训练系统，通过二元结果奖励 + GRPO + 三种探索增强策略（Dynamic Sampling、Clip Higher、高温 Rollout），在 LIBERO 上将 OpenVLA-OFT 从 91% 提升到 99.1% 成功率，仅用 1 条演示的 RL 就超越全量 SFT（96.9% vs 91.0%），在 RoboTwin 2.0 上相对提升 80%（38.3% → 68.8%），并发现 RL 涌现出演示数据中不存在的新行为模式"pushcut"。

一、问题与动机

1.1 SFT 范式的数据瓶颈

当前 VLA 模型的训练范式是"大规模预训练 + SFT"。核心瓶颈有二：

数据稀缺：高质量机器人轨迹数据采集成本极高，需要精心设计场景、多样化物体和熟练操作员
泛化薄弱：在有限场景数据上 SFT 的模型倾向于记忆模式而非学习可泛化技能，面对分布偏移（未见物体、新环境）时误差级联，尤其在组合式长时域任务中问题严重

1.2 传统 RL 的困境

传统机器人 RL 需要为每个任务手工设计奖励函数，不具备可扩展性。

1.3 核心洞察：LRM 的启示

大语言推理模型（如 DeepSeek-R1）的突破表明：仅用稀疏的结果奖励，RL 就能显著增强模型的逐步推理能力。SimpleVLA-RL 将这一洞察迁移到机器人领域，提出关键问题：

结果驱动的 RL 能否提升 VLA 模型的长时域逐步动作规划能力？

1.4 VLA RL 的技术挑战

将 RL 应用于 VLA 面临三个独特挑战：

挑战	LLM RL	VLA RL
轨迹生成	开环文本生成	闭环环境交互，需持续视觉反馈
探索效率	文本采样自然多样	高维动作空间 + 稀疏奖励，探索困难
基础设施	成熟的 LLM-RL 框架	缺乏 VLA 特定的推理+渲染并行基础设施

二、预备知识

2.1 VLA 的 RL 建模

与 LLM RL 的关键区别在于 闭环交互：

状态： $s_{t} = (o_{t}^{v i s}, o_{t}^{p r o p}, l_{t a s k})$ ，包含视觉观测、本体感受和语言指令
动作：通过离散 action tokenizer 生成动作 token 序列，解码为连续控制指令 $a_{t} \in R^{d}$
Rollout：每步生成 action chunk $(a_{t}, \dots, a_{t + k - 1})$ ，执行后获取新状态 $s_{t + k}$ ，循环直到任务完成或达到最大步数

2.2 GRPO

Group Relative Policy Optimization (GRPO) 通过组内归一化计算优势，无需价值函数：

{\hat{A}}_{i} = \frac{R_{i} - mean ({R_{i}}_{i = 1}^{G})}{std ({R_{i}}_{i = 1}^{G})}

其中 $G$ 是组内轨迹数。优势直接由同一初始状态下多条轨迹的奖励对比得出。

三、核心方法

3.1 交互式 VLA Rollout

LLM 的 rollout 是自回归生成文本直到终止；VLA 的 rollout 是闭环交互——每步动作改变环境，后续动作必须基于实时视觉反馈。

SimpleVLA-RL 选择 token-based 动作表示（如 OpenVLA-OFT 的 action tokenizer），因为它天然提供动作分布，既支持温度采样实现探索，又兼容 PPO/GRPO 的策略梯度计算。

3.2 二元结果奖励

遵循 DeepSeek-R1 的简洁设计，使用最简单的二元奖励：

R (a_{i, t} | s_{i, t}) = {\begin{cases} 1, & is_successful [{traj}_{i} (a_{i}, s_{i})] \\ 0, & otherwise \end{cases}

轨迹级奖励均匀传播到每个 action token：成功轨迹中所有 token 获得奖励 1，失败轨迹为 0。

优势：简单、可扩展、跨环境通用、无需复杂的过程奖励设计。

3.3 三种探索增强策略

VLA 模型由于训练轨迹的同质性，倾向于收敛到狭窄的解空间，严重限制 RL 效率。SimpleVLA-RL 提出三种探索增强：

(1) Dynamic Sampling

无 Critic 的 RL 算法（如 GRPO）在组内所有轨迹奖励相同时优势估计为零，梯度消失。Dynamic Sampling 在 rollout 时过滤掉全成功或全失败的组，只保留混合结果的组：

0 < | {{traj}_{i} (a_{i}, s_{i}) ∣ is_successful [{traj}_{i} (a_{i}, s_{i})]} | < G

持续采样直到 batch 全部由混合结果组构成，确保非零优势估计和稳定梯度流。

效果：LIBERO-Long 上 +15%。

(2) Clip Higher

标准 GRPO 的裁剪范围 $[1 - ϵ, 1 + ϵ]$ 限制了低概率 token 的概率增长，抑制探索。参照 DAPO，将上限从 1.2 提升到 1.28（非对称裁剪 $[0.8, 1.28]$ ），允许有潜力但当前低概率的动作被更大幅度强化。

效果：+10%。

(3) Higher Rollout Temperature

将采样温度从 1.0 提升到 1.6，生成更多样的轨迹。

效果：+15%。

3.4 训练目标

去除 KL 散度正则化（参照 DAPO），既节省内存（无需加载参考模型），又解放探索空间。最终目标：

J (θ) = E_{s_{0} \sim D, {a_{t}}_{i = 1}^{G} \sim π_{θ_{o l d}} (\cdot | s_{t})} [\frac{1}{G} \sum_{i = 1}^{G} \frac{1}{| a_{i} |} \sum_{t = 1}^{| a_{i} |} min (r_{i, t} (θ) {\hat{A}}_{i}, clip (r_{i, t} (θ), 1 - ϵ_{L}, 1 + ϵ_{H}) {\hat{A}}_{i})]

其中 $r_{i, t} (θ) = \frac{π_{θ} (a_{i, t} | s_{i, t})}{π_{θ_{o l d}} (a_{i, t} | s_{i, t})}$ ， $ϵ_{L} = 0.2$ ， $ϵ_{H} = 0.28$ 。

四、实验结果

4.1 实验设置

项目	配置
基础模型	OpenVLA-OFT（修改版：单视图、LLaMA2 output head 生成 action token）
仿真基准	LIBERO（4 套件，40 任务）、RoboTwin 1.0（17 双臂任务）、RoboTwin 2.0（12 任务，4 个时域级别）
RL 算法	GRPO（去 KL、非对称裁剪、Dynamic Sampling）
硬件	8×A800 80GB
训练时间	LIBERO 1-2 天，RoboTwin 12-24 小时

4.2 LIBERO 主结果

模型	Spatial	Object	Goal	Long	平均
Octo	78.9	85.7	84.6	51.1	75.1
OpenVLA	84.7	88.4	79.2	53.7	76.5
π₀	96.8	98.8	95.8	85.2	94.2
UniVLA	96.5	96.8	95.6	92.0	95.2
OpenVLA-OFT (SFT)	91.6	95.3	90.6	86.5	91.0
OpenVLA-OFT + SimpleVLA-RL	99.4	99.1	99.2	98.5	99.1

平均提升 +8.1%，LIBERO-Long 提升最大 +12.0%
超越 π₀（94.2%）和 UniVLA（95.2%）

4.3 RoboTwin 2.0 主结果

时域级别	π₀	RDT	OFT (SFT)	OFT + RL	Δ
Short（112-130 步）	45.5	24.5	21.3	64.9	+43.6
Medium（150-230 步）	64.8	47.8	47.1	72.5	+25.4
Long+Extra Long（280-650 步）	47.8	27.8	46.5	69.0	+22.4
Overall	52.7	33.3	38.3	68.8	+30.5

相对提升约 80%，全面超越 π₀ 和 RDT。

4.4 数据效率：1 条演示的 RL 超越全量 SFT

设置	Spatial	Object	Goal	Long	平均
One-Traj SFT	63.6	54.9	59.6	17.3	48.9
One-Traj SFT + RL	98.2	98.7	98.8	91.7	96.9
Full-Traj SFT	91.6	95.3	90.6	86.5	91.0
Full-Traj SFT + RL	99.4	99.1	99.2	98.5	99.1

每个任务仅 1 条演示 + RL 就达到 96.9%，超越全量 SFT 的 91.0%。One-Traj RL 与 Full-Traj RL 的差距仅 2.2%。LIBERO-Long 从 17.3% 跃升至 91.7%（+430%）。

4.5 泛化分析

在 LIBERO 的 Spatial/Object/Goal 三个维度上，保留 1 个任务作为 unseen，用 9 个任务训练：

SFT 在训练任务达 90%+ 后，unseen 任务常常灾难性遗忘至 0%
RL 在训练任务提升的同时，unseen 任务也持续改善（Spatial +28.5%、Object +36.5%、Goal +5-15%）

RL 训练使 VLA 保持已有能力的同时学习可迁移的技能。

4.6 Sim-to-Real

任务	RDT	OFT (SFT)	OFT + RL	Δ
Stack Bowls	60.0	38.0	70.0	+32.0
Place Empty Cup	4.0	2.0	10.0	+8.0
Pick Bottle	10.0	0.0	14.0	+14.0
Click Bell	20.0	30.0	60.0	+30.0
平均	23.5	17.5	38.5	+21.0

全程仅用仿真数据训练，无真实世界演示。RL 训练在 sim-to-real 迁移中持续有效。

五、关键发现

5.1 "Pushcut"现象：RL 涌现新策略

在 RoboTwin 2.0 的 move_can_pot 任务中，所有演示数据都是 grasp-move-place 策略。RL 训练后，模型自主发现了直接推物体到目标位置的更高效策略——这是演示数据中完全不存在的行为。

这与 DeepSeek-R1 的 "Aha Moment" 类似：RL 驱动的探索能发现 SFT 数据中不存在的新解。二元结果奖励的设计是关键——抓取和推的方式完成任务都得到同等奖励，避免了程序性约束，释放了探索自由度。

5.2 失败模式分析

条件	结果
基础模型 0% 成功率（无 SFT）	RL 完全失败，仍为 0%
初始成功率 < 5%	RL 改善微乎其微
初始成功率 ~10%（100 条 SFT）	平均 7.3% → 25.4%
初始成功率 ~28%（1000 条 SFT）	平均 28.2% → 50.4%

模型先验是 RL 有效性的决定性因素。存在一个"能力阈值"——低于此阈值，稀疏结果奖励下的探索无法产生有意义的改进。

六、局限性与未来方向

仅适用于 token-based VLA：当前框架依赖离散 action token 的概率分布进行策略梯度计算，不适用于 diffusion/flow matching 架构的 VLA（如 π₀）
稀疏结果奖励的局限：对初始能力太弱的模型无效，无法为 0% 成功率的模型提供学习信号
仿真依赖：在线 RL 需要大量环境交互，目前仅在仿真器中高效可行，直接在真实世界做大规模在线 RL 仍然困难
超参数敏感：学习率高一个数量级直接崩溃，需精心调参

七、个人思考

7.1 与项目中其他 VLA-RL 论文的关系

SimpleVLA-RL 与本项目中已有的 VLA-RL 在研究对象高度重合（都是自回归 VLA + 在线 RL），但设计哲学截然不同：

VLA-RL 采用 PPO（需要 Critic）+ Robotic PRM（密集过程奖励）+ 课程选择策略
SimpleVLA-RL 采用 GRPO（无 Critic）+ 纯二元结果奖励 + 探索增强策略

结果证明极简设计同样甚至更加有效：SimpleVLA-RL 在 LIBERO 上 99.1% 远超 VLA-RL 的 81.0%。这暗示对于 VLA RL，精心设计的过程奖励可能不如简单结果奖励 + 充分探索来得有效——与 LLM 领域 DeepSeek-R1 的经验一致。

7.2 探索增强是关键

三种探索策略合计贡献了 30-40% 的提升，是 SimpleVLA-RL 成功的核心。Dynamic Sampling 解决了 GRPO 在机器人场景中的梯度消失问题（成功率太低或太高时全组奖励相同），高温采样和非对称裁剪则拓宽了探索空间。这些策略借鉴自 LLM-RL（DAPO、Polaris），说明 LLM RL 的探索技巧可以直接迁移到机器人领域。

7.3 "Pushcut"的启示

"Pushcut"现象是 VLA RL 领域最令人兴奋的发现之一。它证明 RL 不仅能在已知策略空间中优化，还能发现全新的解题策略。这与 TACO 的反探索（anti-exploration）理念形成有趣对比——TACO 约束策略在已知支撑集内，而 SimpleVLA-RL 鼓励跳出已知空间。

7.4 1 条演示 + RL 的意义

每个任务仅 1 条演示就能通过 RL 达到 96.9%，这几乎消除了对大规模人类演示的依赖。结合 RLinf-USER 和 TwinRL 等真实世界 RL 系统，可以设想一种新范式：极少量演示引导 + 大规模仿真 RL + sim-to-real 迁移。

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

SimpleVLA-RL：用在线 RL 扩展 VLA 训练——原理详解 ​

一句话总结 ​

一、问题与动机 ​

1.1 SFT 范式的数据瓶颈 ​

1.2 传统 RL 的困境 ​

1.3 核心洞察：LRM 的启示 ​

1.4 VLA RL 的技术挑战 ​

二、预备知识 ​

2.1 VLA 的 RL 建模 ​

2.2 GRPO ​

三、核心方法 ​

3.1 交互式 VLA Rollout ​

3.2 二元结果奖励 ​

3.3 三种探索增强策略 ​

(1) Dynamic Sampling ​

(2) Clip Higher ​

(3) Higher Rollout Temperature ​

3.4 训练目标 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 LIBERO 主结果 ​

4.3 RoboTwin 2.0 主结果 ​

4.4 数据效率：1 条演示的 RL 超越全量 SFT ​

4.5 泛化分析 ​

4.6 Sim-to-Real ​

五、关键发现 ​

5.1 "Pushcut"现象：RL 涌现新策略 ​

5.2 失败模式分析 ​

六、局限性与未来方向 ​

七、个人思考 ​

7.1 与项目中其他 VLA-RL 论文的关系 ​

7.2 探索增强是关键 ​

7.3 "Pushcut"的启示 ​

7.4 1 条演示 + RL 的意义 ​

参考 ​