PLD：用残差RL数据生成实现VLA自改进——原理详解

论文：Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
机构：NVIDIA、CMU、UC Berkeley、UT Austin（GEAR Team）
发布时间：2026年（ICLR 2026 conference paper）
🔗 项目主页

一句话总结

PLD 提出了一个探索-收集-蒸馏三阶段框架：通过冻结VLA主干、训练轻量残差RL专家来探索失败区域，再用混合轨迹数据做SFT，在 LIBERO 基准上达到近饱和的 99% 成功率，SimplerEnv 提升超过 50%，真实机器人实现 100% 成功率并可连续运行 1 小时无需人工干预。

一、问题与动机

1.1 SFT 的天花板

监督微调（SFT）已成为 VLA 模型后训练的主流范式：基于大规模预训练，再在任务相关的示范数据上微调。但这一范式在机器人场景中面临独特挑战：

数据收集昂贵：高质量机器人示范需要大量人力和时间
分布脱节：遥操作数据由人类提前设计，无法覆盖模型在实际部署时遇到的状态分布
泛化有限：SFT 在训练任务上可靠，但在新任务上的迁移能力不确定

这引出了核心问题：VLA 模型能否用 RL 自动生成数据来实现自我改进，同时不依赖额外的专家示范？

1.2 直接用 RL 微调 VLA 的困难

一个自然的想法是直接对 VLA 做 RL 微调。但 PLD 指出了两个核心阻碍：

困难	说明
稀疏奖励不稳定	语言条件操作任务的奖励信号非常稀疏，导致 RL 训练不稳定、样本效率极低
分布不匹配	独立训练的任务专家（RL expert）行为分布与 VLA 主策略的分布差距大，SFT 后会损害泛化性

此外，直接对大型 VLA（如 π0 的 flow-matching head）做 RL 微调在计算上极为昂贵——OpenVLA-OFT 在 batch size 8 时单卡峰值显存高达约 62.5 GB，且多任务扩展性不明。

1.3 PLD 的核心观察

数据收集不应与主策略无关（not be agnostic to the base policy）：采集策略与主策略必须相互作用，使探索过程能利用主策略的先验知识，同时保证收集的数据与主策略的轨迹分布对齐。

这一观察驱动了 PLD 的整体设计：不替换 VLA 主策略，而是围绕它构建 RL 专家，让专家在主策略的失败区域接管，采集包含恢复行为的混合轨迹，再蒸馏回主策略。

二、预备知识

2.1 任务设定

PLD 研究语言条件操作任务，使用稀疏二值奖励。设语言指令为 $g$ ，部分观测为 $o_{t}$ （包含机器人本体感知和 RGB 图像）。策略输出 7 自由度动作：

a_{t} = D_{ϕ} (h_{θ} (o_{t}, g))

其中 $h_{θ}$ 是视觉语言主干， $D_{ϕ}$ 是动作头。论文验证了方法对以下两类动作头的架构无关性：扩散/Flow-matching 头（如 π0）和离散动作 tokenizer（如 OpenVLA）。

2.2 残差动作结构

PLD 使用残差动作策略 $π_{δ} (\cdot | s, a_{b})$ ，输出对基础动作 $a_{b} \sim π_{b}$ 的修正量，组合动作为：

\bar{a} = a_{b} + a_{δ}

Q 函数通过 TD 学习更新：

Q^{\bar{π}} (s_{t}, {\bar{a}}_{t}) \leftarrow r (s, a) + γ E_{s_{t + 1}} [Q_{target}^{\bar{π}} (s_{t + 1}, {\bar{a}}_{t + 1})]

残差结构的优势在于：一方面复用了 VLA 的语义先验，使探索从合理的初始行为出发；另一方面轻量的 Gaussian 残差策略可以用任何现成的 off-policy RL 算法高效训练。

三、方法论详解

PLD 是一个三阶段流水线，在不依赖额外人工示范的前提下使 VLA 自主改进。

3.1 阶段一：RL 专家获取（Specialist Acquisition）

3.1.1 策略先验热启动

PLD 延续了离线-在线迁移的思路，维护两个经验缓冲区：

离线缓冲区 $B_{offline}$ ：填入基础策略 $π_{b}$ 的成功轨迹，用于初始化值函数
在线缓冲区 $B_{online}$ ：存储在线交互数据

训练时两个缓冲区对称采样（各 50%），确保 Q 函数始终在高价值状态-动作对上训练，缓解稀疏奖励下的值函数爆炸问题。

值函数用 Cal-QL（Calibrated Q-Learning）预训练，相比 CQL 更好地校准了 OOD 动作的保守估计，在少量离线数据（每任务 50 条）的情况下也能有效热启动。

3.1.2 受控探索与动作缩放

为防止初期探索偏离基础策略太远导致不稳定，残差动作的幅度被限制在 $[- ξ, ξ]$ ，并使用调度器动态调整。实验发现：

$ξ$ 过大：早期偏离基础策略，探索不稳定，出现初期性能下降
$ξ$ 过小：探索不足，渐近性能偏低
单臂操作推荐 LIBERO 用 $ξ = 0.5$ ，SimplerEnv 用 $ξ = 0.1$

基础策略灵敏度：残差 RL 对初始策略质量有较强依赖。实验显示，当基础策略成功率至少达到 80% 时，残差 RL 可稳定提升到 99%；若基础策略过弱（1-demo 级别），残差 RL 在 8 个任务中有 7 个无法收敛。这一特性既是设计约束也是合理前提——PLD 面向已有一定能力的 VLA 进行进一步提升。

3.2 阶段二：混合数据收集（Hybrid Data Collection）

这是 PLD 最核心的设计，也是其区别于单纯 RL 数据收集的关键所在。

3.2.1 纯 RL 专家数据的问题

训练完成的 RL 专家可以高效、稳定地解决任务，但其行为分布存在关键缺陷：

过于最优化（unimodal）：RL 专家总走最短路径，轨迹高度集中
偏离基础策略分布：专家从初始状态直接求解，与 VLA 实际部署时的状态访问分布不重合
缺乏恢复行为：不覆盖基础策略常见的失败状态和次优状态，SFT 后会遗忘基础策略的泛化能力

3.2.2 基础策略探针（Base Policy Probing）

PLD 采用混合轨迹生成方案：

先用基础策略 $π_{b}$ 运行随机步数 $T_{base} \sim [0, α T]$ （基础策略探针阶段）
再让 RL 专家接管，生成后续恢复轨迹

最终混合轨迹为：

τ_{demo} = \underset{基础策略部分}{\underset{⏟}{(s_{1}, a_{b, 1}), \dots, (s_{t - 1}, a_{b, t - 1})}} \cup \underset{专家恢复部分}{\underset{⏟}{(s_{t}, a_{b} + {\bar{a}}_{t}), \dots}}

同时，RL 专家训练时的初始状态分布也对应调整为 $s_{0} \sim p_{0}^{π_{b}}$ （基础策略探针后的状态），使专家具备从潜在次优状态恢复的能力。

探针比例 $α$ 的影响（论文 Figure 13）：随 $α$ 增大，成功轨迹的平均长度增加（更多绕行），SFT 性能在 $α = 0.6$ 时达到峰值，之后单调下降——多样性与最优性之间存在权衡，过长的探针会引入太多次优数据。

3.2.3 为什么 PLD 数据优于人类数据

PLD 数据优势的根本来源（对应论文 Figure 9 的轨迹可视化）：

数据来源	特点	SFT 效果
基础策略 rollout	与部署分布对齐，但多为失败/次优轨迹	在分布内性能差，泛化差
纯 RL 专家	高质量但高度集中，偏离基础策略分布	在分布内可以，泛化能力差
人类遥操作	多样性好，但与 VLA 部署分布脱节	泛化好，但在分布内性能弱于 PLD
PLD（混合）	围绕基础策略分布、包含恢复行为	在分布内最强，泛化与人类数据相当甚至更好

核心假设：由于基础策略探针，PLD 数据偏向基础策略的行为分布，SFT 后遗忘更少——这与 LLM 微调中 KL 散度作为遗忘指标的观察相吻合。

3.3 阶段三：监督微调（Supervised Fine-Tuning）

收集的多任务 PLD 数据通过标准 SFT 蒸馏回基础 VLA。使用 LoRA（rank=32）高效微调，支持两类动作头：

自回归 token head（OpenVLA）：序列 NLL 损失
Flow-matching head（π0）：L2 flow-matching 损失

SFT 阶段对 VLA 架构完全透明，这也是 PLD "即插即用（plug-and-play）"的体现。

四、实验结果

4.1 RL 专家学习效率（Q1）

在 LIBERO-90 的 8 个任务上与 state-of-the-art 样本高效 RL 基线比较，训练 250k 步：

RLPD（Ball et al., 2023）：利用离线数据，无基础策略引导
WSRL（Zhou et al., 2024）：仅离线热启动，在线阶段丢弃离线数据
PLD-RL（ours）：离线热启动 + 在线混合回放 + 基础策略先验

结论：PLD 在低样本预算下以大幅优势超越所有基线，能在全部 120+ 个操作任务上渐近达到 95% 以上成功率。

4.2 在分布内性能提升（Q2）

在 LIBERO 三个子集（Spatial、Object、Goal）上评估，每个子集 10 个任务，两个 VLA 架构：

模型	Spatial	Object	Goal	平均
π0 Baseline (SFT)	95.2	97.6	87.4	93.4
π0 + PLD	97.7	98.5	95.3	97.2
OpenVLA Baseline (OFT)	92.9	99.1	83.3	91.8
OpenVLA + PLD	99.5	99.1	98.9	99.2

所有子集、两种架构上均有一致提升，无需额外人工示范。PLD 蒸馏后的泛化策略性能显著超过各任务平均专家成功率——专家技能被有效迁移到主策略中。

4.3 泛化性能（Q3）

对未见任务的泛化（Figure 2）：在 LIBERO-90 的不同任务覆盖比例（10%～80%）上微调 π0，评估对所有 90 个任务的成功率。三种数据来源对比：

PLD 数据在分布内性能最强，同时保持与人类数据相当的零样本迁移能力
PLD 在仅训练 10% 任务时，未见任务成功率达到 24.4%（基础策略 rollout 数据此时接近 0）
基础策略 rollout 数据（0-1 REINFORCE）在分布内差、分布外完全失效

对域外任务的小样本泛化（Figure 6）：从源任务（LIBERO-Goal）采集 50～500 条 PLD 数据，在目标任务（LIBERO-90 语义相关任务）上做小样本微调，相比纯 RL rollout 和基础策略 rollout 数据单调改善。

对长时域任务的泛化（Figure 8）：在 LIBERO-90 上训练，零样本评估 LIBERO-10 长时域任务——PLD 优于基础策略 rollout，但弱于人类专家示范（长时域组合在当前实现中仍有提升空间）。

4.4 真实机器人实验（Q4）

Franka Panda 单臂任务（Cube pick-up + Peg insertion，30 次随机化试验）：

数据来源	蓝色方块（clean）	蓝色方块（杂乱环境）	红色方块（杂乱）	插杆
PLD 数据	30/30 (100%)	28/30 (93.3%)	20/30 (66.7%)	30/30 (100%)
人类遥操作数据	—	12/30 (40.0%)	10/30 (33.3%)	30/30 (100%)
RL rollout 数据	—	16/30 (53.3%)	—	—

典型失败分析（Figure 7）：在方块被推入左上角这类罕见角落状态时，人类示范和纯 RL 数据均未覆盖，策略陷入死循环；而 PLD 策略因为探针阶段显式采样了基础策略常见的次优状态，成功学会了重新定位方块的恢复行为。

YAM 双臂高精度插卡任务（Figure 1）：4 阶段流水线（抓取→移动→插入→拔出），每个子任务训练约 8 小时。系统在无人工干预的情况下连续运行完整插卡循环 1 小时，展示了 PLD 作为持续自改进数据飞轮的潜力。

五、用类比总结 PLD 的核心原理

想象你要训练一个学徒厨师学会做复杂菜肴。

纯 SFT（传统 VLA）：你把大厨的烹饪录像全部给学徒看。学徒学会了标准流程，但一旦碰到食材摆放位置奇怪、刀具滑了一下等意外情况，就完全不知道该怎么恢复。

纯 RL 专家：你训练了一个机器人大厨，它可以用最优路径完成任务。但它的操作方式与学徒完全不同（动作分布差距大），学徒照着学反而会遗忘自己原来的烹饪风格，且对从没见过的菜谱无法举一反三。

PLD 的做法：

冻结学徒（VLA frozen）：不直接改动学徒的核心技能，只在旁边加一个"助手"（残差策略），助手负责在学徒出错时轻轻纠正手势
基础策略探针（probing）：先让学徒照常操作若干步，让助手从学徒实际会犯错的地方开始学习如何接管，而不是从头开始
混合轨迹蒸馏（distillation）：把这些"学徒出错→助手纠正"的完整轨迹录下来，再以 SFT 方式教回给学徒

结果：学徒不仅在熟悉菜肴上更好，遇到食材位置奇怪时也能自行调整——因为训练数据来自学徒自己的失败区域，而不是来自"别的厨师"的完美操作。

六、与相关工作的对比

6.1 与在线 RL 直接微调 VLA 的比较

维度	在线 RL 直接微调（如 VLA-RL）	PLD
GPU 占用	~62.5 GB / GPU（batch 8）	~5 GB / GPU（仅残差 MLP）
训练稳定性	flow-matching head 的 Q 函数优化困难	轻量 Gaussian 策略，任意 off-policy RL 可用
多任务扩展	单任务微调代价已很高	90 任务可并行分布到 90 GPU
泛化性	单任务精调可能损害泛化	数据围绕基础策略分布，遗忘更少

6.2 与 WoVR / RISE（世界模型 RL）的比较

维度	WoVR / RISE	PLD
环境需求	不依赖真实环境，在想象中优化	需要真实模拟器/真实环境交互
奖励信号	学习的奖励模型（分类器或价值函数）	环境稀疏奖励（二值分类器辅助）
主策略更新方式	直接 RL 微调 VLA 权重	先训专家，再 SFT 蒸馏
计算成本	需要训练大型视频世界模型（~5B）	仅需训练轻量 MLP 专家（~5 GB VRAM）
数据飞轮	依赖世界模型质量上限	可在真实环境中持续迭代

6.3 与 DAgger 思想的联系

PLD 的基础策略探针本质上是 DAgger 的一个变体：DAgger 让学习者先 rollout，再在遇到的状态上查询专家。PLD 同样让 VLA 先 rollout，再让 RL 专家接管——区别在于专家是通过 RL 自动训练而非人类提供，且数据被蒸馏回到主策略而非直接训练。

七、局限性与未来方向

7.1 对基础策略能力的依赖

PLD 需要基础策略已有约 80% 的成功率才能有效收敛。对于全新场景下近乎从零开始的任务，PLD-RL 的暖启动机制会失效。这意味着 PLD 更适合作为已有一定能力的 VLA 的提升工具，而非从头训练的解法。

7.2 长时域泛化仍有差距

在 LIBERO-Long 的零样本评估中，PLD 数据优于基础策略 rollout，但仍落后于人类示范。长时域任务的技能组合（skill composition）需要跨子任务的连贯性，这是当前 PLD 数据飞轮尚未完全解决的问题。

7.3 YAM 任务的单步成功率非 100%

论文提到 YAM 插卡任务每个阶段的单步成功率并非 100%，系统依靠自动重试来维持连续运行。如何提升高精度任务的单步可靠性是工程化落地的重要方向。

7.4 探针比例需要调参

最优探针比例 $α$ 依赖任务特性，论文发现 $α = 0.6$ 为最优但存在任务间差异。自适应调整探针比例，或根据任务难度和基础策略能力动态设定，有助于减少人工调参负担。

八、个人思考

8.1 "数据与策略不应脱节"的普适性

PLD 最深刻的洞察是：数据收集策略与目标策略的分布对齐，是泛化能力的关键。这一观点超出了机器人领域，在 LLM RLHF、游戏 AI、自动驾驶等场景中同样成立。PLD 提供了一个具体的实现模版——当目标模型过大或不便直接做 RL 时，围绕它构建轻量代理，以代理的探索对齐目标模型的分布。

8.2 残差 RL 作为"计算效率与表达能力"的折中

PLD 选择冻结 VLA 主干、训练轻量残差 MLP 专家，这一设计是在表达能力与计算效率之间的精巧折中。冻结主干使得残差策略只需要学习微小的修正量（delta action），大幅降低了探索空间的复杂度；而蒸馏阶段再把这些修正知识写回主策略，恢复了完整的表达能力。这与 LoRA 参数高效微调的思路异曲同工——用结构约束降低优化难度，再通过合并恢复能力。

8.3 PLD 数据飞轮的可扩展性想象

论文展示了 90 个 LIBERO 任务并行化的成功案例（90 GPU + 10TB CPU 内存）。这暗示了 PLD 框架的一种自然扩展：只要有足够多的任务实例和足够的计算资源，PLD 飞轮可以同时在数百个任务上运行，持续产生与 VLA 对齐的高质量数据。这与 AlphaGo/AlphaZero 的自对弈数据生成有相似的规模化潜力。

8.4 PLD 与 WoVR 的互补性

从解决问题的角度看，PLD 和 WoVR 是 VLA 后训练的两条互补路线：

维度	WoVR	PLD
核心诉求	减少真实环境交互	生成分布对齐的高质量数据
主要贡献	幻觉感知的世界模型 RL	基础策略探针 + 混合数据收集
适用场景	真实环境交互昂贵（真实机器人）	有仿真器可用，需提升泛化性
数据效率	极高（无需真实交互）	高（~5 GB VRAM / task，可并行）

未来一个有趣的结合方向是：用 WoVR 的世界模型为 PLD 的 RL 专家提供更丰富的训练环境，同时用 PLD 的分布对齐数据收集策略来提升世界模型的覆盖范围。

参考

VLA-RL: Scalable Online RL for Autoregressive VLA：同期工作，直接对 VLA 做在线 RL 微调（PPO + RPRM），在真实模拟器中交互
WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL：用视频世界模型替代真实环境，在想象空间中做 RL 后训练
RISE: Self-Improving Robot Policy with Compositional World Model：用组合式世界模型（动力学 + 价值）进行短程想象中的 RL 优化
RLPD: Efficient Online RL with Offline Data：PLD 的直接基线，离线-在线混合经验回放框架
WSRL: Efficient Online RL Fine-Tuning Need Not Retain Offline Data：另一个基线，研究在线微调是否需要保留离线数据
Cal-QL: Calibrated Offline RL Pre-training：PLD 采用的 critic 预训练方法，校准 OOD 动作的保守估计
ResiP: From Imitation to Refinement — Residual RL for Precise Assembly：残差 RL 的先驱工作，PLD 在此基础上引入分布对齐数据收集
EXPO: Stable RL with Expressive Policies：另一个残差 RL 工作，off-policy 方式联合训练基础策略
π0: A VLA Flow Model for General Robot Control：PLD 的默认基础 VLA，flow-matching 动作头
OpenVLA-OFT: Fine-Tuning VLA Models：PLD 验证架构无关性使用的另一个基础模型
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning：PLD 的主要仿真评估基准（130 个任务）
RL's Razor: Why Online RL Forgets Less：解释 PLD 数据泛化性的理论依据——KL 散度作为遗忘的代理指标

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

PLD：用残差RL数据生成实现VLA自改进——原理详解 ​

一句话总结 ​

一、问题与动机 ​

1.1 SFT 的天花板 ​

1.2 直接用 RL 微调 VLA 的困难 ​

1.3 PLD 的核心观察 ​

二、预备知识 ​

2.1 任务设定 ​

2.2 残差动作结构 ​

三、方法论详解 ​

3.1 阶段一：RL 专家获取（Specialist Acquisition） ​

3.1.1 策略先验热启动 ​

3.1.2 受控探索与动作缩放 ​

3.2 阶段二：混合数据收集（Hybrid Data Collection） ​

3.2.1 纯 RL 专家数据的问题 ​

3.2.2 基础策略探针（Base Policy Probing） ​

3.2.3 为什么 PLD 数据优于人类数据 ​

3.3 阶段三：监督微调（Supervised Fine-Tuning） ​

四、实验结果 ​

4.1 RL 专家学习效率（Q1） ​

4.2 在分布内性能提升（Q2） ​

4.3 泛化性能（Q3） ​

4.4 真实机器人实验（Q4） ​

五、用类比总结 PLD 的核心原理 ​

六、与相关工作的对比 ​

6.1 与在线 RL 直接微调 VLA 的比较 ​

6.2 与 WoVR / RISE（世界模型 RL）的比较 ​

6.3 与 DAgger 思想的联系 ​

七、局限性与未来方向 ​

7.1 对基础策略能力的依赖 ​

7.2 长时域泛化仍有差距 ​

7.3 YAM 任务的单步成功率非 100% ​

7.4 探针比例需要调参 ​

八、个人思考 ​

8.1 "数据与策略不应脱节"的普适性 ​

8.2 残差 RL 作为"计算效率与表达能力"的折中 ​

8.3 PLD 数据飞轮的可扩展性想象 ​

8.4 PLD 与 WoVR 的互补性 ​

参考 ​