Skip to content

Beyond Human Demonstrations——扩散 RL 生成高质量数据训练 VLA

论文:Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training

作者:Rushuai Yang*, Hangxing Wei*, Ran Zhang* 等

机构:HKUST、Microsoft Research Asia、Wuhan University、UCAS、Tsinghua、CSU

发布时间:2025 年 9 月(arXiv: 2509.19752v2)

🔗 arXiv

分类标签:Diffusion RL 数据生成 VLA 训练 PPO LIBERO


一句话总结

用轻量扩散策略(~12M 参数)配合 PPO 在线训练,为 LIBERO-130 中的每个任务训练出专家 RL 代理并收集高质量、低方差轨迹,再以标准 BC 微调 π₀ VLA 模型;纯 RL 合成数据训练的 VLA 达到 81.9% 平均成功率,比人类数据高 +5.3%、比高斯 RL 数据高 +12.6%。


一、问题与动机

1.1 VLA 的数据瓶颈

VLA 模型依赖大规模人类遥操作数据集(如 Open X-Embodiment),数据采集成本高且难以扩展。更关键的是,人类演示存在固有缺陷:

  • 高方差 / 多模态:不同操作者策略不一致,动作分布呈多峰
  • 操作冗余:包含犹豫停顿、空操作(no-op)
  • 次优轨迹:人类操作不一定是最高效路径

1.2 高斯 RL 生成数据的局限

直接用标准高斯 RL(如 Gaussian PPO)生成替代数据看似可行,但在 LIBERO 这类长时域、稀疏奖励任务上:

  • 高斯策略假设单峰分布,无法拟合多模态人类演示的 warm-start
  • 生成的轨迹存在高频抖动(jitter),尤其在任务末端
  • 学习不稳定,生成大量失败 / 次优轨迹

1.3 核心洞察:扩散策略的双重优势

作者发现扩散策略在 RL 数据生成中具有独特优势:

  1. 表达力强:能拟合多模态分布,warm-start 阶段不会"平均化"不同操作模式
  2. 隐式正则化:迭代去噪过程天然鼓励时序平滑——产生一个突兀动作需要整个去噪链协调配合,概率极低;而平滑连贯的动作序列是去噪的自然输出

用大白话说:高斯策略每步独立采样一个动作,容易"手抖";扩散策略同时生成整个 action chunk 并逐步精炼,天然产生流畅运动。

1.4 与已有范式的定位

范式代表工作数据来源VLA 训练方式
人类遥操作LIBERO, Open X-Embodiment人类演示BC
RL 直接微调 VLARLVLA, VLA-RLRL 在线交互PPO/GRPO 微调 VLA 参数
RL 生成数据 → VLARLDG(高斯 RL)RL 专家轨迹BC(不改 VLA 训练范式)
本文扩散 RL 专家轨迹BC(标准流程,即插即用)

本文的关键优势:不改变 VLA 训练流程,只替换数据源。生成的数据可与人类数据、世界模型数据等任意组合,无缝接入现有 VLA 训练 pipeline。


二、预备知识

2.1 Diffusion Policy

扩散策略 πθ 通过学习逆扩散过程生成动作:

前向扩散:逐步向干净动作 a0 添加高斯噪声

ak=α¯ka0+1α¯kϵ,ϵN(0,I)

反向去噪:噪声预测网络 ϵθ(ak,st,k) 学习预测噪声,BC 训练目标:

LBC(θ)=Ek,(st,a0),ϵ[ϵϵθ(α¯ka0+1α¯kϵ,st,k)2]

推理时:从纯噪声 aKN(0,I) 出发,经 K 步去噪得到动作 a0

2.2 Diffusion RL:去噪步作为子决策

扩散策略的 πθ(a0|st) 不可解析计算(需对整个去噪链积分),因此无法直接用 PPO。解决方案(DPPO 等工作的思路):K 步去噪过程视为子轨迹,每步转移 pθ(ak1|ak,st) 是可计算的高斯分布。

PPO 的似然比改为对去噪步计算:

rt,k(θ)=pθ(ak1|ak,st)pθold(ak1|ak,st)

策略梯度遍历所有时间步 t 和去噪步 k

LPolicy(θ)=Et,k[min(rt,k(θ)A^t,clip(rt,k(θ),1ϵ,1+ϵ)A^t)]

价值函数使用标准 GAE:

A^t=l=0(γλ)lδt+l,δt=rt+γVϕ(st+1)Vϕ(st)

三、核心方法

3.1 三阶段 Pipeline

Phase 1: BC Warm-Start     Phase 2: Online RL      Phase 3: VLA Training
┌─────────────────┐   ┌─────────────────────┐   ┌──────────────────┐
│ 人类演示 Dhuman  │   │ 扩散策略 + PPO       │   │ 收敛策略收集     │
│ → 训练扩散策略   │──→│ 在线交互优化         │──→│ 高质量轨迹 D_RL  │──→ π₀ VLA BC 微调
│ (多模态拟合)   │   │ (最大化累积奖励)   │   │ → 标准 BC 训练   │
└─────────────────┘   └─────────────────────┘   └──────────────────┘

3.2 Phase 1:多模态 BC Warm-Start

用少量人类演示(每任务 50 条)训练扩散策略。扩散模型的多模态拟合能力在这一阶段至关重要:

  • 高斯策略会"平均化"不同操作模式,warm-start 效果差
  • 扩散策略忠实拟合多峰分布,为 RL 提供高质量初始策略

3.3 Phase 2:稳定化在线 RL

直接对扩散策略做 PPO 训练面临严重的稳定性问题。本文提出四项关键改进:

(1) 架构设计:ResNet + U-Net + FiLM

架构BC 阶段表现RL 阶段稳定性
ViT + MLP低数据 regime 拟合差MLP 无法建模多模态
ViT + U-Net视觉编码效率低较好
ResNet + U-Net(本文)ResNet 归纳偏置 → 高样本效率U-Net 建模多模态 + FiLM 稳定条件化

FiLM 机制将本体感知信息注入扩散网络,提供比简单拼接更稳定的条件化信号。

(2) DDIM 快速采样

标准 DDPM 采样(100 步)在 RL 训练中有两大问题:

  • 速度慢:每步环境交互需 1370.5 ms
  • 方差高:随机去噪引入额外动作噪声,干扰 Critic 更新

切换到 DDIM 确定性采样(5 步):

  • 速度提升 ~10×(137.1 ms)
  • 动作方差更低,策略梯度更稳定

(3) 余弦退火学习率

η(t)=ηmin+12(ηmaxηmin)(1+cosπtT)
  • 初期大学习率:鼓励探索,跳出 BC 局部最优
  • 后期小学习率:稳定收敛,保留 BC 阶段学到的先验

固定学习率的问题:太大则策略崩溃,太小则学习太慢。

(4) 大规模并行环境防止模式坍塌

这是最关键的发现之一。扩散策略的高表达力是把双刃剑:

  • 如果每次 PPO 更新只用少量相关轨迹,策略会快速过拟合这些轨迹的偏置
  • 多模态分布坍塌为单一次优模式 → 后续 rollout 产生更差数据 → 恶性循环

解决方案:使用 100 个并行环境填充 replay buffer,确保每次更新的经验足够多样化。

3.4 Phase 3:VLA 标准 BC 训练

收敛后的扩散 RL 策略为每个任务生成 50 条最优轨迹,构成数据集 DRL。VLA 训练使用标准负对数似然损失:

LVLA=E(ot,at,l)DRL[logΠVLA(at|ot,l)]

对于 π₀ 这类连续动作空间模型,等价于 MSE 或 flow matching 损失。所有 VLA 训练超参数保持一致,仅替换数据源。


四、实验结果

4.1 实验设置

  • 基准:LIBERO-130(5 个子集,130 个长时域操作任务)
  • VLA 模型:π₀
  • 对比数据源:人类演示(50 条/任务)、高斯 RL 数据、扩散 RL 数据(本文)
  • 评估:每个任务 50 次评估,随机初始化

4.2 分布内成功率

数据源LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-LongLIBERO-90平均
人类数据73.4092.0083.2066.0068.6076.64
高斯 RL 数据80.4061.8082.4047.0075.0069.32
扩散 RL 数据83.4099.0083.8063.0080.4981.94

关键观察:

  • 扩散 RL 数据在 5 个子集中的 4 个上领先,平均 +5.3% 超越人类数据
  • 高斯 RL 数据在 LIBERO-Object 上惨败(61.80% vs 99.00%),因策略不稳定产生大量次优轨迹
  • LIBERO-Long 上人类数据略优(66.00 vs 63.00),可能因长时域任务中人类演示的多样性仍有价值

4.3 分布外泛化

在 LIBERO-90 上预训练,零样本评估未见任务:

数据源LIBERO-LongLIBERO-GoalLIBERO-Object平均
人类数据0.000.004.401.47
扩散 RL 数据1.400.004.802.06
人类 + 扩散 RL4.605.605.405.20

关键发现:混合数据的效果是任意单一数据源的 2× 以上。人类数据提供多样性和多模态探索策略,RL 数据提供一致性和最优性——两者互补。

4.4 消融实验

设计选择默认替代方案影响
架构ResNet + U-NetViT + MLPViT+MLP 收敛差,无法建模多模态
采样器DDIM(5 步)DDPM(100 步)DDPM 慢 10×,性能相当
学习率余弦退火固定 1e-6 / 1e-7固定 LR 要么崩溃要么学不动
并行环境数1005050 个环境导致策略坍塌

每个设计选择都对训练稳定性至关重要,说明扩散 RL 的成功不是"换个策略表示"那么简单,需要精心的工程调优。

4.5 数据质量分析

轨迹效率

  • 人类演示含大量 no-op(4500 条轨迹中有 3007 个 no-op 时刻)
  • RL 方法(高斯/扩散)的 no-op 数为
  • 扩散 RL 的平均轨迹长度最短,尤其在长时域任务上

轨迹平滑度(Mean Squared Jerk)

MSJ=1Tt=1Td3xdt32
  • 高斯 RL:MSJ 最高(~1.5e-6),高频抖动严重
  • 人类数据:中等(~0.8e-6)
  • 扩散 RL:最低(~0.2e-6),轨迹最平滑

动作一致性(跨轨迹方差)

对同一任务 50 条成功轨迹的动作标准差:

  • 人类数据:高方差(宽阴影区域),反映多模态操作策略
  • 高斯 RL:方差高且末端抖动严重
  • 扩散 RL:极低方差,收敛到近确定性的单一最优策略

这三项指标一致说明:扩散 RL 的去噪过程天然产生高效、平滑、一致的轨迹——恰好是 BC 训练所需的理想数据特性。


五、局限性与未来方向

5.1 仿真-真实差距

所有实验在 LIBERO 仿真中完成,扩散 RL 策略是否能在真实环境中同样稳定训练尚未验证。

5.2 每任务独立训练

当前为每个任务训练一个独立的扩散 RL 代理(~12M 参数/任务),130 个任务需要 130 个独立训练过程。虽然单个代理轻量,但总体训练预算随任务数线性增长。

5.3 OOD 泛化仍然有限

即使混合人类 + RL 数据,OOD 成功率也仅 5.20%。这反映了 LIBERO 基准本身的 OOD 难度,但也说明数据质量的提升不能完全替代架构和训练方法的改进。

5.4 奖励函数依赖

RL 训练依赖 LIBERO 提供的任务完成奖励。对于真实世界任务,如何设计或自动生成奖励函数仍是开放问题。


六、个人思考

6.1 数据工程 vs 算法创新

这篇论文的核心信息出人意料:数据质量比 VLA 架构更重要。同一个 π₀ 模型,仅替换训练数据就能提升 5.3%。这与 VLA RL 后训练方向(直接用 RL 微调 VLA)形成有趣的对比:

路线代表工作改了什么不改什么
RL 后训练VLA-RL, RLVLAVLA 权重数据
数据生成本文, RLDG训练数据VLA 权重

两条路线不冲突——可以先用扩散 RL 生成高质量数据做 SFT,再用 RL 后训练进一步微调。

6.2 扩散策略 vs 高斯策略的本质差异

本文最有价值的实证发现是:用什么策略架构做 RL 数据生成,直接决定了下游 VLA 的性能。高斯 RL 数据甚至不如人类数据(69.32% vs 76.64%),而扩散 RL 数据则大幅领先(81.94%)。差距来源不是 RL 算法本身,而是策略表示的归纳偏置:

  • 高斯策略:每步独立采样 → 高频抖动 → VLA 学到抖动
  • 扩散策略:chunk-level 去噪 → 时序平滑 → VLA 学到一致运动

这与 SAC Flow 中 flow policy 的序列建模观点一致——动作生成过程本身的结构性对策略质量至关重要。

6.3 与 RPD 的互补关系

RPD 将 VLA 知识蒸馏为轻量 RL 专家(VLA → RL),本文则用 RL 专家为 VLA 生成训练数据(RL → VLA)。两者方向相反但目标一致:利用 RL 的交互优化能力弥补 VLA 的数据瓶颈。

有趣的是,RPD 引用了 RLDG 作为"反向范式"的代表,而本文正是 RLDG 的扩散 RL 升级版。如果将 RPD 和本文组合:先用 RPD 蒸馏 VLA → RL 专家 → 再用本文的稳定化训练进一步优化 → 收集数据反哺 VLA,形成良性循环。

6.4 数据一致性是关键

论文中最令人印象深刻的 figure 是动作一致性对比(Fig. 7):扩散 RL 的 50 条轨迹几乎重合,而人类和高斯 RL 都有很大分散。这说明 VLA 的 BC 训练本质上是回归问题——训练数据越一致(低方差),回归目标越清晰,VLA 学得越好。

这与 VLA-RFT 的世界模型数据生成思路异曲同工——两者都在追求"高质量、低方差"的训练信号,只是数据来源不同(环境交互 vs 世界模型想象)。


参考

  • π₀ (Black et al., 2024):本文使用的 VLA 基础模型
  • LIBERO (Liu et al., 2023):130 任务长时域操作基准
  • Diffusion Policy (Chi et al., 2023):扩散策略原始工作
  • DPPO (Ren et al., 2024):扩散策略策略优化(去噪步作为子决策)
  • RLDG (Xu et al., 2024):高斯 RL 生成数据训练 VLA 通才策略
  • RLVLA (Liu et al., 2025):RL 直接微调 VLA 的实证研究
  • DDIM (Song et al., 2021):确定性扩散采样加速