PLD:用残差RL数据生成实现VLA自改进——原理详解
论文:Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
机构:NVIDIA、CMU、UC Berkeley、UT Austin(GEAR Team)
发布时间:2026年(ICLR 2026 conference paper)
🔗 项目主页
一句话总结
PLD 提出了一个探索-收集-蒸馏三阶段框架:通过冻结VLA主干、训练轻量残差RL专家来探索失败区域,再用混合轨迹数据做SFT,在 LIBERO 基准上达到近饱和的 99% 成功率,SimplerEnv 提升超过 50%,真实机器人实现 100% 成功率并可连续运行 1 小时无需人工干预。
一、问题与动机
1.1 SFT 的天花板
监督微调(SFT)已成为 VLA 模型后训练的主流范式:基于大规模预训练,再在任务相关的示范数据上微调。但这一范式在机器人场景中面临独特挑战:
- 数据收集昂贵:高质量机器人示范需要大量人力和时间
- 分布脱节:遥操作数据由人类提前设计,无法覆盖模型在实际部署时遇到的状态分布
- 泛化有限:SFT 在训练任务上可靠,但在新任务上的迁移能力不确定
这引出了核心问题:VLA 模型能否用 RL 自动生成数据来实现自我改进,同时不依赖额外的专家示范?
1.2 直接用 RL 微调 VLA 的困难
一个自然的想法是直接对 VLA 做 RL 微调。但 PLD 指出了两个核心阻碍:
| 困难 | 说明 |
|---|---|
| 稀疏奖励不稳定 | 语言条件操作任务的奖励信号非常稀疏,导致 RL 训练不稳定、样本效率极低 |
| 分布不匹配 | 独立训练的任务专家(RL expert)行为分布与 VLA 主策略的分布差距大,SFT 后会损害泛化性 |
此外,直接对大型 VLA(如 π0 的 flow-matching head)做 RL 微调在计算上极为昂贵——OpenVLA-OFT 在 batch size 8 时单卡峰值显存高达约 62.5 GB,且多任务扩展性不明。
1.3 PLD 的核心观察
数据收集不应与主策略无关(not be agnostic to the base policy):采集策略与主策略必须相互作用,使探索过程能利用主策略的先验知识,同时保证收集的数据与主策略的轨迹分布对齐。
这一观察驱动了 PLD 的整体设计:不替换 VLA 主策略,而是围绕它构建 RL 专家,让专家在主策略的失败区域接管,采集包含恢复行为的混合轨迹,再蒸馏回主策略。
二、预备知识
2.1 任务设定
PLD 研究语言条件操作任务,使用稀疏二值奖励。设语言指令为
其中
2.2 残差动作结构
PLD 使用残差动作策略
Q 函数通过 TD 学习更新:
残差结构的优势在于:一方面复用了 VLA 的语义先验,使探索从合理的初始行为出发;另一方面轻量的 Gaussian 残差策略可以用任何现成的 off-policy RL 算法高效训练。
三、方法论详解
PLD 是一个三阶段流水线,在不依赖额外人工示范的前提下使 VLA 自主改进。
3.1 阶段一:RL 专家获取(Specialist Acquisition)
3.1.1 策略先验热启动
PLD 延续了离线-在线迁移的思路,维护两个经验缓冲区:
- 离线缓冲区
:填入基础策略 的成功轨迹,用于初始化值函数 - 在线缓冲区
:存储在线交互数据
训练时两个缓冲区对称采样(各 50%),确保 Q 函数始终在高价值状态-动作对上训练,缓解稀疏奖励下的值函数爆炸问题。
值函数用 Cal-QL(Calibrated Q-Learning)预训练,相比 CQL 更好地校准了 OOD 动作的保守估计,在少量离线数据(每任务 50 条)的情况下也能有效热启动。
3.1.2 受控探索与动作缩放
为防止初期探索偏离基础策略太远导致不稳定,残差动作的幅度被限制在
过大:早期偏离基础策略,探索不稳定,出现初期性能下降 过小:探索不足,渐近性能偏低 - 单臂操作推荐 LIBERO 用
,SimplerEnv 用
基础策略灵敏度:残差 RL 对初始策略质量有较强依赖。实验显示,当基础策略成功率至少达到 80% 时,残差 RL 可稳定提升到 99%;若基础策略过弱(1-demo 级别),残差 RL 在 8 个任务中有 7 个无法收敛。这一特性既是设计约束也是合理前提——PLD 面向已有一定能力的 VLA 进行进一步提升。
3.2 阶段二:混合数据收集(Hybrid Data Collection)
这是 PLD 最核心的设计,也是其区别于单纯 RL 数据收集的关键所在。
3.2.1 纯 RL 专家数据的问题
训练完成的 RL 专家可以高效、稳定地解决任务,但其行为分布存在关键缺陷:
- 过于最优化(unimodal):RL 专家总走最短路径,轨迹高度集中
- 偏离基础策略分布:专家从初始状态直接求解,与 VLA 实际部署时的状态访问分布不重合
- 缺乏恢复行为:不覆盖基础策略常见的失败状态和次优状态,SFT 后会遗忘基础策略的泛化能力
3.2.2 基础策略探针(Base Policy Probing)
PLD 采用混合轨迹生成方案:
- 先用基础策略
运行随机步数 (基础策略探针阶段) - 再让 RL 专家接管,生成后续恢复轨迹
最终混合轨迹为:
同时,RL 专家训练时的初始状态分布也对应调整为
探针比例
3.2.3 为什么 PLD 数据优于人类数据
PLD 数据优势的根本来源(对应论文 Figure 9 的轨迹可视化):
| 数据来源 | 特点 | SFT 效果 |
|---|---|---|
| 基础策略 rollout | 与部署分布对齐,但多为失败/次优轨迹 | 在分布内性能差,泛化差 |
| 纯 RL 专家 | 高质量但高度集中,偏离基础策略分布 | 在分布内可以,泛化能力差 |
| 人类遥操作 | 多样性好,但与 VLA 部署分布脱节 | 泛化好,但在分布内性能弱于 PLD |
| PLD(混合) | 围绕基础策略分布、包含恢复行为 | 在分布内最强,泛化与人类数据相当甚至更好 |
核心假设:由于基础策略探针,PLD 数据偏向基础策略的行为分布,SFT 后遗忘更少——这与 LLM 微调中 KL 散度作为遗忘指标的观察相吻合。
3.3 阶段三:监督微调(Supervised Fine-Tuning)
收集的多任务 PLD 数据通过标准 SFT 蒸馏回基础 VLA。使用 LoRA(rank=32)高效微调,支持两类动作头:
- 自回归 token head(OpenVLA):序列 NLL 损失
- Flow-matching head(π0):L2 flow-matching 损失
SFT 阶段对 VLA 架构完全透明,这也是 PLD "即插即用(plug-and-play)"的体现。
四、实验结果
4.1 RL 专家学习效率(Q1)
在 LIBERO-90 的 8 个任务上与 state-of-the-art 样本高效 RL 基线比较,训练 250k 步:
- RLPD(Ball et al., 2023):利用离线数据,无基础策略引导
- WSRL(Zhou et al., 2024):仅离线热启动,在线阶段丢弃离线数据
- PLD-RL(ours):离线热启动 + 在线混合回放 + 基础策略先验
结论:PLD 在低样本预算下以大幅优势超越所有基线,能在全部 120+ 个操作任务上渐近达到 95% 以上成功率。
4.2 在分布内性能提升(Q2)
在 LIBERO 三个子集(Spatial、Object、Goal)上评估,每个子集 10 个任务,两个 VLA 架构:
| 模型 | Spatial | Object | Goal | 平均 |
|---|---|---|---|---|
| π0 Baseline (SFT) | 95.2 | 97.6 | 87.4 | 93.4 |
| π0 + PLD | 97.7 | 98.5 | 95.3 | 97.2 |
| OpenVLA Baseline (OFT) | 92.9 | 99.1 | 83.3 | 91.8 |
| OpenVLA + PLD | 99.5 | 99.1 | 98.9 | 99.2 |
所有子集、两种架构上均有一致提升,无需额外人工示范。PLD 蒸馏后的泛化策略性能显著超过各任务平均专家成功率——专家技能被有效迁移到主策略中。
4.3 泛化性能(Q3)
对未见任务的泛化(Figure 2):在 LIBERO-90 的不同任务覆盖比例(10%~80%)上微调 π0,评估对所有 90 个任务的成功率。三种数据来源对比:
- PLD 数据在分布内性能最强,同时保持与人类数据相当的零样本迁移能力
- PLD 在仅训练 10% 任务时,未见任务成功率达到 24.4%(基础策略 rollout 数据此时接近 0)
- 基础策略 rollout 数据(0-1 REINFORCE)在分布内差、分布外完全失效
对域外任务的小样本泛化(Figure 6):从源任务(LIBERO-Goal)采集 50~500 条 PLD 数据,在目标任务(LIBERO-90 语义相关任务)上做小样本微调,相比纯 RL rollout 和基础策略 rollout 数据单调改善。
对长时域任务的泛化(Figure 8):在 LIBERO-90 上训练,零样本评估 LIBERO-10 长时域任务——PLD 优于基础策略 rollout,但弱于人类专家示范(长时域组合在当前实现中仍有提升空间)。
4.4 真实机器人实验(Q4)
Franka Panda 单臂任务(Cube pick-up + Peg insertion,30 次随机化试验):
| 数据来源 | 蓝色方块(clean) | 蓝色方块(杂乱环境) | 红色方块(杂乱) | 插杆 |
|---|---|---|---|---|
| PLD 数据 | 30/30 (100%) | 28/30 (93.3%) | 20/30 (66.7%) | 30/30 (100%) |
| 人类遥操作数据 | — | 12/30 (40.0%) | 10/30 (33.3%) | 30/30 (100%) |
| RL rollout 数据 | — | 16/30 (53.3%) | — | — |
典型失败分析(Figure 7):在方块被推入左上角这类罕见角落状态时,人类示范和纯 RL 数据均未覆盖,策略陷入死循环;而 PLD 策略因为探针阶段显式采样了基础策略常见的次优状态,成功学会了重新定位方块的恢复行为。
YAM 双臂高精度插卡任务(Figure 1):4 阶段流水线(抓取→移动→插入→拔出),每个子任务训练约 8 小时。系统在无人工干预的情况下连续运行完整插卡循环 1 小时,展示了 PLD 作为持续自改进数据飞轮的潜力。
五、用类比总结 PLD 的核心原理
想象你要训练一个学徒厨师学会做复杂菜肴。
纯 SFT(传统 VLA):你把大厨的烹饪录像全部给学徒看。学徒学会了标准流程,但一旦碰到食材摆放位置奇怪、刀具滑了一下等意外情况,就完全不知道该怎么恢复。
纯 RL 专家:你训练了一个机器人大厨,它可以用最优路径完成任务。但它的操作方式与学徒完全不同(动作分布差距大),学徒照着学反而会遗忘自己原来的烹饪风格,且对从没见过的菜谱无法举一反三。
PLD 的做法:
- 冻结学徒(VLA frozen):不直接改动学徒的核心技能,只在旁边加一个"助手"(残差策略),助手负责在学徒出错时轻轻纠正手势
- 基础策略探针(probing):先让学徒照常操作若干步,让助手从学徒实际会犯错的地方开始学习如何接管,而不是从头开始
- 混合轨迹蒸馏(distillation):把这些"学徒出错→助手纠正"的完整轨迹录下来,再以 SFT 方式教回给学徒
结果:学徒不仅在熟悉菜肴上更好,遇到食材位置奇怪时也能自行调整——因为训练数据来自学徒自己的失败区域,而不是来自"别的厨师"的完美操作。
六、与相关工作的对比
6.1 与在线 RL 直接微调 VLA 的比较
| 维度 | 在线 RL 直接微调(如 VLA-RL) | PLD |
|---|---|---|
| GPU 占用 | ~62.5 GB / GPU(batch 8) | ~5 GB / GPU(仅残差 MLP) |
| 训练稳定性 | flow-matching head 的 Q 函数优化困难 | 轻量 Gaussian 策略,任意 off-policy RL 可用 |
| 多任务扩展 | 单任务微调代价已很高 | 90 任务可并行分布到 90 GPU |
| 泛化性 | 单任务精调可能损害泛化 | 数据围绕基础策略分布,遗忘更少 |
6.2 与 WoVR / RISE(世界模型 RL)的比较
| 维度 | WoVR / RISE | PLD |
|---|---|---|
| 环境需求 | 不依赖真实环境,在想象中优化 | 需要真实模拟器/真实环境交互 |
| 奖励信号 | 学习的奖励模型(分类器或价值函数) | 环境稀疏奖励(二值分类器辅助) |
| 主策略更新方式 | 直接 RL 微调 VLA 权重 | 先训专家,再 SFT 蒸馏 |
| 计算成本 | 需要训练大型视频世界模型(~5B) | 仅需训练轻量 MLP 专家(~5 GB VRAM) |
| 数据飞轮 | 依赖世界模型质量上限 | 可在真实环境中持续迭代 |
6.3 与 DAgger 思想的联系
PLD 的基础策略探针本质上是 DAgger 的一个变体:DAgger 让学习者先 rollout,再在遇到的状态上查询专家。PLD 同样让 VLA 先 rollout,再让 RL 专家接管——区别在于专家是通过 RL 自动训练而非人类提供,且数据被蒸馏回到主策略而非直接训练。
七、局限性与未来方向
7.1 对基础策略能力的依赖
PLD 需要基础策略已有约 80% 的成功率才能有效收敛。对于全新场景下近乎从零开始的任务,PLD-RL 的暖启动机制会失效。这意味着 PLD 更适合作为已有一定能力的 VLA 的提升工具,而非从头训练的解法。
7.2 长时域泛化仍有差距
在 LIBERO-Long 的零样本评估中,PLD 数据优于基础策略 rollout,但仍落后于人类示范。长时域任务的技能组合(skill composition)需要跨子任务的连贯性,这是当前 PLD 数据飞轮尚未完全解决的问题。
7.3 YAM 任务的单步成功率非 100%
论文提到 YAM 插卡任务每个阶段的单步成功率并非 100%,系统依靠自动重试来维持连续运行。如何提升高精度任务的单步可靠性是工程化落地的重要方向。
7.4 探针比例需要调参
最优探针比例
八、个人思考
8.1 "数据与策略不应脱节"的普适性
PLD 最深刻的洞察是:数据收集策略与目标策略的分布对齐,是泛化能力的关键。这一观点超出了机器人领域,在 LLM RLHF、游戏 AI、自动驾驶等场景中同样成立。PLD 提供了一个具体的实现模版——当目标模型过大或不便直接做 RL 时,围绕它构建轻量代理,以代理的探索对齐目标模型的分布。
8.2 残差 RL 作为"计算效率与表达能力"的折中
PLD 选择冻结 VLA 主干、训练轻量残差 MLP 专家,这一设计是在表达能力与计算效率之间的精巧折中。冻结主干使得残差策略只需要学习微小的修正量(delta action),大幅降低了探索空间的复杂度;而蒸馏阶段再把这些修正知识写回主策略,恢复了完整的表达能力。这与 LoRA 参数高效微调的思路异曲同工——用结构约束降低优化难度,再通过合并恢复能力。
8.3 PLD 数据飞轮的可扩展性想象
论文展示了 90 个 LIBERO 任务并行化的成功案例(90 GPU + 10TB CPU 内存)。这暗示了 PLD 框架的一种自然扩展:只要有足够多的任务实例和足够的计算资源,PLD 飞轮可以同时在数百个任务上运行,持续产生与 VLA 对齐的高质量数据。这与 AlphaGo/AlphaZero 的自对弈数据生成有相似的规模化潜力。
8.4 PLD 与 WoVR 的互补性
从解决问题的角度看,PLD 和 WoVR 是 VLA 后训练的两条互补路线:
| 维度 | WoVR | PLD |
|---|---|---|
| 核心诉求 | 减少真实环境交互 | 生成分布对齐的高质量数据 |
| 主要贡献 | 幻觉感知的世界模型 RL | 基础策略探针 + 混合数据收集 |
| 适用场景 | 真实环境交互昂贵(真实机器人) | 有仿真器可用,需提升泛化性 |
| 数据效率 | 极高(无需真实交互) | 高(~5 GB VRAM / task,可并行) |
未来一个有趣的结合方向是:用 WoVR 的世界模型为 PLD 的 RL 专家提供更丰富的训练环境,同时用 PLD 的分布对齐数据收集策略来提升世界模型的覆盖范围。
参考
- VLA-RL: Scalable Online RL for Autoregressive VLA:同期工作,直接对 VLA 做在线 RL 微调(PPO + RPRM),在真实模拟器中交互
- WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL:用视频世界模型替代真实环境,在想象空间中做 RL 后训练
- RISE: Self-Improving Robot Policy with Compositional World Model:用组合式世界模型(动力学 + 价值)进行短程想象中的 RL 优化
- RLPD: Efficient Online RL with Offline Data:PLD 的直接基线,离线-在线混合经验回放框架
- WSRL: Efficient Online RL Fine-Tuning Need Not Retain Offline Data:另一个基线,研究在线微调是否需要保留离线数据
- Cal-QL: Calibrated Offline RL Pre-training:PLD 采用的 critic 预训练方法,校准 OOD 动作的保守估计
- ResiP: From Imitation to Refinement — Residual RL for Precise Assembly:残差 RL 的先驱工作,PLD 在此基础上引入分布对齐数据收集
- EXPO: Stable RL with Expressive Policies:另一个残差 RL 工作,off-policy 方式联合训练基础策略
- π0: A VLA Flow Model for General Robot Control:PLD 的默认基础 VLA,flow-matching 动作头
- OpenVLA-OFT: Fine-Tuning VLA Models:PLD 验证架构无关性使用的另一个基础模型
- LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning:PLD 的主要仿真评估基准(130 个任务)
- RL's Razor: Why Online RL Forgets Less:解释 PLD 数据泛化性的理论依据——KL 散度作为遗忘的代理指标