Skip to content

PLD:用残差RL数据生成实现VLA自改进——原理详解

论文:Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

机构:NVIDIA、CMU、UC Berkeley、UT Austin(GEAR Team)

发布时间:2026年(ICLR 2026 conference paper)

🔗 项目主页


一句话总结

PLD 提出了一个探索-收集-蒸馏三阶段框架:通过冻结VLA主干、训练轻量残差RL专家来探索失败区域,再用混合轨迹数据做SFT,在 LIBERO 基准上达到近饱和的 99% 成功率,SimplerEnv 提升超过 50%,真实机器人实现 100% 成功率并可连续运行 1 小时无需人工干预。


一、问题与动机

1.1 SFT 的天花板

监督微调(SFT)已成为 VLA 模型后训练的主流范式:基于大规模预训练,再在任务相关的示范数据上微调。但这一范式在机器人场景中面临独特挑战:

  • 数据收集昂贵:高质量机器人示范需要大量人力和时间
  • 分布脱节:遥操作数据由人类提前设计,无法覆盖模型在实际部署时遇到的状态分布
  • 泛化有限:SFT 在训练任务上可靠,但在新任务上的迁移能力不确定

这引出了核心问题:VLA 模型能否用 RL 自动生成数据来实现自我改进,同时不依赖额外的专家示范?

1.2 直接用 RL 微调 VLA 的困难

一个自然的想法是直接对 VLA 做 RL 微调。但 PLD 指出了两个核心阻碍:

困难说明
稀疏奖励不稳定语言条件操作任务的奖励信号非常稀疏,导致 RL 训练不稳定、样本效率极低
分布不匹配独立训练的任务专家(RL expert)行为分布与 VLA 主策略的分布差距大,SFT 后会损害泛化性

此外,直接对大型 VLA(如 π0 的 flow-matching head)做 RL 微调在计算上极为昂贵——OpenVLA-OFT 在 batch size 8 时单卡峰值显存高达约 62.5 GB,且多任务扩展性不明。

1.3 PLD 的核心观察

数据收集不应与主策略无关(not be agnostic to the base policy):采集策略与主策略必须相互作用,使探索过程能利用主策略的先验知识,同时保证收集的数据与主策略的轨迹分布对齐。

这一观察驱动了 PLD 的整体设计:不替换 VLA 主策略,而是围绕它构建 RL 专家,让专家在主策略的失败区域接管,采集包含恢复行为的混合轨迹,再蒸馏回主策略。


二、预备知识

2.1 任务设定

PLD 研究语言条件操作任务,使用稀疏二值奖励。设语言指令为 g,部分观测为 ot(包含机器人本体感知和 RGB 图像)。策略输出 7 自由度动作:

at=Dϕ(hθ(ot,g))

其中 hθ 是视觉语言主干,Dϕ 是动作头。论文验证了方法对以下两类动作头的架构无关性:扩散/Flow-matching 头(如 π0)和离散动作 tokenizer(如 OpenVLA)。

2.2 残差动作结构

PLD 使用残差动作策略 πδ(|s,ab),输出对基础动作 abπb 的修正量,组合动作为:

a¯=ab+aδ

Q 函数通过 TD 学习更新:

Qπ¯(st,a¯t)r(s,a)+γEst+1[Qtargetπ¯(st+1,a¯t+1)]

残差结构的优势在于:一方面复用了 VLA 的语义先验,使探索从合理的初始行为出发;另一方面轻量的 Gaussian 残差策略可以用任何现成的 off-policy RL 算法高效训练。


三、方法论详解

PLD 是一个三阶段流水线,在不依赖额外人工示范的前提下使 VLA 自主改进。

3.1 阶段一:RL 专家获取(Specialist Acquisition)

3.1.1 策略先验热启动

PLD 延续了离线-在线迁移的思路,维护两个经验缓冲区:

  • 离线缓冲区 Boffline:填入基础策略 πb 的成功轨迹,用于初始化值函数
  • 在线缓冲区 Bonline:存储在线交互数据

训练时两个缓冲区对称采样(各 50%),确保 Q 函数始终在高价值状态-动作对上训练,缓解稀疏奖励下的值函数爆炸问题。

值函数用 Cal-QL(Calibrated Q-Learning)预训练,相比 CQL 更好地校准了 OOD 动作的保守估计,在少量离线数据(每任务 50 条)的情况下也能有效热启动。

3.1.2 受控探索与动作缩放

为防止初期探索偏离基础策略太远导致不稳定,残差动作的幅度被限制在 [ξ,ξ],并使用调度器动态调整。实验发现:

  • ξ 过大:早期偏离基础策略,探索不稳定,出现初期性能下降
  • ξ 过小:探索不足,渐近性能偏低
  • 单臂操作推荐 LIBERO 用 ξ=0.5,SimplerEnv 用 ξ=0.1

基础策略灵敏度:残差 RL 对初始策略质量有较强依赖。实验显示,当基础策略成功率至少达到 80% 时,残差 RL 可稳定提升到 99%;若基础策略过弱(1-demo 级别),残差 RL 在 8 个任务中有 7 个无法收敛。这一特性既是设计约束也是合理前提——PLD 面向已有一定能力的 VLA 进行进一步提升。

3.2 阶段二:混合数据收集(Hybrid Data Collection)

这是 PLD 最核心的设计,也是其区别于单纯 RL 数据收集的关键所在。

3.2.1 纯 RL 专家数据的问题

训练完成的 RL 专家可以高效、稳定地解决任务,但其行为分布存在关键缺陷:

  • 过于最优化(unimodal):RL 专家总走最短路径,轨迹高度集中
  • 偏离基础策略分布:专家从初始状态直接求解,与 VLA 实际部署时的状态访问分布不重合
  • 缺乏恢复行为:不覆盖基础策略常见的失败状态和次优状态,SFT 后会遗忘基础策略的泛化能力

3.2.2 基础策略探针(Base Policy Probing)

PLD 采用混合轨迹生成方案:

  1. 先用基础策略 πb 运行随机步数 Tbase[0,αT](基础策略探针阶段)
  2. 再让 RL 专家接管,生成后续恢复轨迹

最终混合轨迹为:

τdemo=(s1,ab,1),,(st1,ab,t1)基础策略部分(st,ab+a¯t),专家恢复部分

同时,RL 专家训练时的初始状态分布也对应调整为 s0p0πb(基础策略探针后的状态),使专家具备从潜在次优状态恢复的能力。

探针比例 α 的影响(论文 Figure 13):随 α 增大,成功轨迹的平均长度增加(更多绕行),SFT 性能在 α=0.6 时达到峰值,之后单调下降——多样性与最优性之间存在权衡,过长的探针会引入太多次优数据。

3.2.3 为什么 PLD 数据优于人类数据

PLD 数据优势的根本来源(对应论文 Figure 9 的轨迹可视化):

数据来源特点SFT 效果
基础策略 rollout与部署分布对齐,但多为失败/次优轨迹在分布内性能差,泛化差
纯 RL 专家高质量但高度集中,偏离基础策略分布在分布内可以,泛化能力差
人类遥操作多样性好,但与 VLA 部署分布脱节泛化好,但在分布内性能弱于 PLD
PLD(混合)围绕基础策略分布、包含恢复行为在分布内最强,泛化与人类数据相当甚至更好

核心假设:由于基础策略探针,PLD 数据偏向基础策略的行为分布,SFT 后遗忘更少——这与 LLM 微调中 KL 散度作为遗忘指标的观察相吻合。

3.3 阶段三:监督微调(Supervised Fine-Tuning)

收集的多任务 PLD 数据通过标准 SFT 蒸馏回基础 VLA。使用 LoRA(rank=32)高效微调,支持两类动作头:

  • 自回归 token head(OpenVLA):序列 NLL 损失
  • Flow-matching head(π0):L2 flow-matching 损失

SFT 阶段对 VLA 架构完全透明,这也是 PLD "即插即用(plug-and-play)"的体现。


四、实验结果

4.1 RL 专家学习效率(Q1)

在 LIBERO-90 的 8 个任务上与 state-of-the-art 样本高效 RL 基线比较,训练 250k 步:

  • RLPD(Ball et al., 2023):利用离线数据,无基础策略引导
  • WSRL(Zhou et al., 2024):仅离线热启动,在线阶段丢弃离线数据
  • PLD-RL(ours):离线热启动 + 在线混合回放 + 基础策略先验

结论:PLD 在低样本预算下以大幅优势超越所有基线,能在全部 120+ 个操作任务上渐近达到 95% 以上成功率。

4.2 在分布内性能提升(Q2)

在 LIBERO 三个子集(Spatial、Object、Goal)上评估,每个子集 10 个任务,两个 VLA 架构:

模型SpatialObjectGoal平均
π0 Baseline (SFT)95.297.687.493.4
π0 + PLD97.798.595.397.2
OpenVLA Baseline (OFT)92.999.183.391.8
OpenVLA + PLD99.599.198.999.2

所有子集、两种架构上均有一致提升,无需额外人工示范。PLD 蒸馏后的泛化策略性能显著超过各任务平均专家成功率——专家技能被有效迁移到主策略中。

4.3 泛化性能(Q3)

对未见任务的泛化(Figure 2):在 LIBERO-90 的不同任务覆盖比例(10%~80%)上微调 π0,评估对所有 90 个任务的成功率。三种数据来源对比:

  • PLD 数据在分布内性能最强,同时保持与人类数据相当的零样本迁移能力
  • PLD 在仅训练 10% 任务时,未见任务成功率达到 24.4%(基础策略 rollout 数据此时接近 0)
  • 基础策略 rollout 数据(0-1 REINFORCE)在分布内差、分布外完全失效

对域外任务的小样本泛化(Figure 6):从源任务(LIBERO-Goal)采集 50~500 条 PLD 数据,在目标任务(LIBERO-90 语义相关任务)上做小样本微调,相比纯 RL rollout 和基础策略 rollout 数据单调改善。

对长时域任务的泛化(Figure 8):在 LIBERO-90 上训练,零样本评估 LIBERO-10 长时域任务——PLD 优于基础策略 rollout,但弱于人类专家示范(长时域组合在当前实现中仍有提升空间)。

4.4 真实机器人实验(Q4)

Franka Panda 单臂任务(Cube pick-up + Peg insertion,30 次随机化试验):

数据来源蓝色方块(clean)蓝色方块(杂乱环境)红色方块(杂乱)插杆
PLD 数据30/30 (100%)28/30 (93.3%)20/30 (66.7%)30/30 (100%)
人类遥操作数据12/30 (40.0%)10/30 (33.3%)30/30 (100%)
RL rollout 数据16/30 (53.3%)

典型失败分析(Figure 7):在方块被推入左上角这类罕见角落状态时,人类示范和纯 RL 数据均未覆盖,策略陷入死循环;而 PLD 策略因为探针阶段显式采样了基础策略常见的次优状态,成功学会了重新定位方块的恢复行为。

YAM 双臂高精度插卡任务(Figure 1):4 阶段流水线(抓取→移动→插入→拔出),每个子任务训练约 8 小时。系统在无人工干预的情况下连续运行完整插卡循环 1 小时,展示了 PLD 作为持续自改进数据飞轮的潜力。


五、用类比总结 PLD 的核心原理

想象你要训练一个学徒厨师学会做复杂菜肴。

纯 SFT(传统 VLA):你把大厨的烹饪录像全部给学徒看。学徒学会了标准流程,但一旦碰到食材摆放位置奇怪、刀具滑了一下等意外情况,就完全不知道该怎么恢复。

纯 RL 专家:你训练了一个机器人大厨,它可以用最优路径完成任务。但它的操作方式与学徒完全不同(动作分布差距大),学徒照着学反而会遗忘自己原来的烹饪风格,且对从没见过的菜谱无法举一反三。

PLD 的做法

  1. 冻结学徒(VLA frozen):不直接改动学徒的核心技能,只在旁边加一个"助手"(残差策略),助手负责在学徒出错时轻轻纠正手势
  2. 基础策略探针(probing):先让学徒照常操作若干步,让助手从学徒实际会犯错的地方开始学习如何接管,而不是从头开始
  3. 混合轨迹蒸馏(distillation):把这些"学徒出错→助手纠正"的完整轨迹录下来,再以 SFT 方式教回给学徒

结果:学徒不仅在熟悉菜肴上更好,遇到食材位置奇怪时也能自行调整——因为训练数据来自学徒自己的失败区域,而不是来自"别的厨师"的完美操作。


六、与相关工作的对比

6.1 与在线 RL 直接微调 VLA 的比较

维度在线 RL 直接微调(如 VLA-RL)PLD
GPU 占用~62.5 GB / GPU(batch 8)~5 GB / GPU(仅残差 MLP)
训练稳定性flow-matching head 的 Q 函数优化困难轻量 Gaussian 策略,任意 off-policy RL 可用
多任务扩展单任务微调代价已很高90 任务可并行分布到 90 GPU
泛化性单任务精调可能损害泛化数据围绕基础策略分布,遗忘更少

6.2 与 WoVR / RISE(世界模型 RL)的比较

维度WoVR / RISEPLD
环境需求不依赖真实环境,在想象中优化需要真实模拟器/真实环境交互
奖励信号学习的奖励模型(分类器或价值函数)环境稀疏奖励(二值分类器辅助)
主策略更新方式直接 RL 微调 VLA 权重先训专家,再 SFT 蒸馏
计算成本需要训练大型视频世界模型(~5B)仅需训练轻量 MLP 专家(~5 GB VRAM)
数据飞轮依赖世界模型质量上限可在真实环境中持续迭代

6.3 与 DAgger 思想的联系

PLD 的基础策略探针本质上是 DAgger 的一个变体:DAgger 让学习者先 rollout,再在遇到的状态上查询专家。PLD 同样让 VLA 先 rollout,再让 RL 专家接管——区别在于专家是通过 RL 自动训练而非人类提供,且数据被蒸馏回到主策略而非直接训练。


七、局限性与未来方向

7.1 对基础策略能力的依赖

PLD 需要基础策略已有约 80% 的成功率才能有效收敛。对于全新场景下近乎从零开始的任务,PLD-RL 的暖启动机制会失效。这意味着 PLD 更适合作为已有一定能力的 VLA 的提升工具,而非从头训练的解法。

7.2 长时域泛化仍有差距

在 LIBERO-Long 的零样本评估中,PLD 数据优于基础策略 rollout,但仍落后于人类示范。长时域任务的技能组合(skill composition)需要跨子任务的连贯性,这是当前 PLD 数据飞轮尚未完全解决的问题。

7.3 YAM 任务的单步成功率非 100%

论文提到 YAM 插卡任务每个阶段的单步成功率并非 100%,系统依靠自动重试来维持连续运行。如何提升高精度任务的单步可靠性是工程化落地的重要方向。

7.4 探针比例需要调参

最优探针比例 α 依赖任务特性,论文发现 α=0.6 为最优但存在任务间差异。自适应调整探针比例,或根据任务难度和基础策略能力动态设定,有助于减少人工调参负担。


八、个人思考

8.1 "数据与策略不应脱节"的普适性

PLD 最深刻的洞察是:数据收集策略与目标策略的分布对齐,是泛化能力的关键。这一观点超出了机器人领域,在 LLM RLHF、游戏 AI、自动驾驶等场景中同样成立。PLD 提供了一个具体的实现模版——当目标模型过大或不便直接做 RL 时,围绕它构建轻量代理,以代理的探索对齐目标模型的分布。

8.2 残差 RL 作为"计算效率与表达能力"的折中

PLD 选择冻结 VLA 主干、训练轻量残差 MLP 专家,这一设计是在表达能力计算效率之间的精巧折中。冻结主干使得残差策略只需要学习微小的修正量(delta action),大幅降低了探索空间的复杂度;而蒸馏阶段再把这些修正知识写回主策略,恢复了完整的表达能力。这与 LoRA 参数高效微调的思路异曲同工——用结构约束降低优化难度,再通过合并恢复能力。

8.3 PLD 数据飞轮的可扩展性想象

论文展示了 90 个 LIBERO 任务并行化的成功案例(90 GPU + 10TB CPU 内存)。这暗示了 PLD 框架的一种自然扩展:只要有足够多的任务实例和足够的计算资源,PLD 飞轮可以同时在数百个任务上运行,持续产生与 VLA 对齐的高质量数据。这与 AlphaGo/AlphaZero 的自对弈数据生成有相似的规模化潜力。

8.4 PLD 与 WoVR 的互补性

从解决问题的角度看,PLD 和 WoVR 是 VLA 后训练的两条互补路线:

维度WoVRPLD
核心诉求减少真实环境交互生成分布对齐的高质量数据
主要贡献幻觉感知的世界模型 RL基础策略探针 + 混合数据收集
适用场景真实环境交互昂贵(真实机器人)有仿真器可用,需提升泛化性
数据效率极高(无需真实交互)高(~5 GB VRAM / task,可并行)

未来一个有趣的结合方向是:用 WoVR 的世界模型为 PLD 的 RL 专家提供更丰富的训练环境,同时用 PLD 的分布对齐数据收集策略来提升世界模型的覆盖范围。


参考