Beyond Human Demonstrations——扩散 RL 生成高质量数据训练 VLA
论文:Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training
作者:Rushuai Yang*, Hangxing Wei*, Ran Zhang* 等
机构:HKUST、Microsoft Research Asia、Wuhan University、UCAS、Tsinghua、CSU
发布时间:2025 年 9 月(arXiv: 2509.19752v2)
🔗 arXiv
分类标签:
Diffusion RL数据生成VLA 训练PPOLIBERO
一句话总结
用轻量扩散策略(~12M 参数)配合 PPO 在线训练,为 LIBERO-130 中的每个任务训练出专家 RL 代理并收集高质量、低方差轨迹,再以标准 BC 微调 π₀ VLA 模型;纯 RL 合成数据训练的 VLA 达到 81.9% 平均成功率,比人类数据高 +5.3%、比高斯 RL 数据高 +12.6%。
一、问题与动机
1.1 VLA 的数据瓶颈
VLA 模型依赖大规模人类遥操作数据集(如 Open X-Embodiment),数据采集成本高且难以扩展。更关键的是,人类演示存在固有缺陷:
- 高方差 / 多模态:不同操作者策略不一致,动作分布呈多峰
- 操作冗余:包含犹豫停顿、空操作(no-op)
- 次优轨迹:人类操作不一定是最高效路径
1.2 高斯 RL 生成数据的局限
直接用标准高斯 RL(如 Gaussian PPO)生成替代数据看似可行,但在 LIBERO 这类长时域、稀疏奖励任务上:
- 高斯策略假设单峰分布,无法拟合多模态人类演示的 warm-start
- 生成的轨迹存在高频抖动(jitter),尤其在任务末端
- 学习不稳定,生成大量失败 / 次优轨迹
1.3 核心洞察:扩散策略的双重优势
作者发现扩散策略在 RL 数据生成中具有独特优势:
- 表达力强:能拟合多模态分布,warm-start 阶段不会"平均化"不同操作模式
- 隐式正则化:迭代去噪过程天然鼓励时序平滑——产生一个突兀动作需要整个去噪链协调配合,概率极低;而平滑连贯的动作序列是去噪的自然输出
用大白话说:高斯策略每步独立采样一个动作,容易"手抖";扩散策略同时生成整个 action chunk 并逐步精炼,天然产生流畅运动。
1.4 与已有范式的定位
| 范式 | 代表工作 | 数据来源 | VLA 训练方式 |
|---|---|---|---|
| 人类遥操作 | LIBERO, Open X-Embodiment | 人类演示 | BC |
| RL 直接微调 VLA | RLVLA, VLA-RL | RL 在线交互 | PPO/GRPO 微调 VLA 参数 |
| RL 生成数据 → VLA | RLDG(高斯 RL) | RL 专家轨迹 | BC(不改 VLA 训练范式) |
| 本文 | — | 扩散 RL 专家轨迹 | BC(标准流程,即插即用) |
本文的关键优势:不改变 VLA 训练流程,只替换数据源。生成的数据可与人类数据、世界模型数据等任意组合,无缝接入现有 VLA 训练 pipeline。
二、预备知识
2.1 Diffusion Policy
扩散策略
前向扩散:逐步向干净动作
反向去噪:噪声预测网络
推理时:从纯噪声
2.2 Diffusion RL:去噪步作为子决策
扩散策略的
PPO 的似然比改为对去噪步计算:
策略梯度遍历所有时间步
价值函数使用标准 GAE:
三、核心方法
3.1 三阶段 Pipeline
Phase 1: BC Warm-Start Phase 2: Online RL Phase 3: VLA Training
┌─────────────────┐ ┌─────────────────────┐ ┌──────────────────┐
│ 人类演示 Dhuman │ │ 扩散策略 + PPO │ │ 收敛策略收集 │
│ → 训练扩散策略 │──→│ 在线交互优化 │──→│ 高质量轨迹 D_RL │──→ π₀ VLA BC 微调
│ (多模态拟合) │ │ (最大化累积奖励) │ │ → 标准 BC 训练 │
└─────────────────┘ └─────────────────────┘ └──────────────────┘3.2 Phase 1:多模态 BC Warm-Start
用少量人类演示(每任务 50 条)训练扩散策略。扩散模型的多模态拟合能力在这一阶段至关重要:
- 高斯策略会"平均化"不同操作模式,warm-start 效果差
- 扩散策略忠实拟合多峰分布,为 RL 提供高质量初始策略
3.3 Phase 2:稳定化在线 RL
直接对扩散策略做 PPO 训练面临严重的稳定性问题。本文提出四项关键改进:
(1) 架构设计:ResNet + U-Net + FiLM
| 架构 | BC 阶段表现 | RL 阶段稳定性 |
|---|---|---|
| ViT + MLP | 低数据 regime 拟合差 | MLP 无法建模多模态 |
| ViT + U-Net | 视觉编码效率低 | 较好 |
| ResNet + U-Net(本文) | ResNet 归纳偏置 → 高样本效率 | U-Net 建模多模态 + FiLM 稳定条件化 |
FiLM 机制将本体感知信息注入扩散网络,提供比简单拼接更稳定的条件化信号。
(2) DDIM 快速采样
标准 DDPM 采样(100 步)在 RL 训练中有两大问题:
- 速度慢:每步环境交互需 1370.5 ms
- 方差高:随机去噪引入额外动作噪声,干扰 Critic 更新
切换到 DDIM 确定性采样(5 步):
- 速度提升 ~10×(137.1 ms)
- 动作方差更低,策略梯度更稳定
(3) 余弦退火学习率
- 初期大学习率:鼓励探索,跳出 BC 局部最优
- 后期小学习率:稳定收敛,保留 BC 阶段学到的先验
固定学习率的问题:太大则策略崩溃,太小则学习太慢。
(4) 大规模并行环境防止模式坍塌
这是最关键的发现之一。扩散策略的高表达力是把双刃剑:
- 如果每次 PPO 更新只用少量相关轨迹,策略会快速过拟合这些轨迹的偏置
- 多模态分布坍塌为单一次优模式 → 后续 rollout 产生更差数据 → 恶性循环
解决方案:使用 100 个并行环境填充 replay buffer,确保每次更新的经验足够多样化。
3.4 Phase 3:VLA 标准 BC 训练
收敛后的扩散 RL 策略为每个任务生成 50 条最优轨迹,构成数据集
对于 π₀ 这类连续动作空间模型,等价于 MSE 或 flow matching 损失。所有 VLA 训练超参数保持一致,仅替换数据源。
四、实验结果
4.1 实验设置
- 基准:LIBERO-130(5 个子集,130 个长时域操作任务)
- VLA 模型:π₀
- 对比数据源:人类演示(50 条/任务)、高斯 RL 数据、扩散 RL 数据(本文)
- 评估:每个任务 50 次评估,随机初始化
4.2 分布内成功率
| 数据源 | LIBERO-Spatial | LIBERO-Object | LIBERO-Goal | LIBERO-Long | LIBERO-90 | 平均 |
|---|---|---|---|---|---|---|
| 人类数据 | 73.40 | 92.00 | 83.20 | 66.00 | 68.60 | 76.64 |
| 高斯 RL 数据 | 80.40 | 61.80 | 82.40 | 47.00 | 75.00 | 69.32 |
| 扩散 RL 数据 | 83.40 | 99.00 | 83.80 | 63.00 | 80.49 | 81.94 |
关键观察:
- 扩散 RL 数据在 5 个子集中的 4 个上领先,平均 +5.3% 超越人类数据
- 高斯 RL 数据在 LIBERO-Object 上惨败(61.80% vs 99.00%),因策略不稳定产生大量次优轨迹
- LIBERO-Long 上人类数据略优(66.00 vs 63.00),可能因长时域任务中人类演示的多样性仍有价值
4.3 分布外泛化
在 LIBERO-90 上预训练,零样本评估未见任务:
| 数据源 | LIBERO-Long | LIBERO-Goal | LIBERO-Object | 平均 |
|---|---|---|---|---|
| 人类数据 | 0.00 | 0.00 | 4.40 | 1.47 |
| 扩散 RL 数据 | 1.40 | 0.00 | 4.80 | 2.06 |
| 人类 + 扩散 RL | 4.60 | 5.60 | 5.40 | 5.20 |
关键发现:混合数据的效果是任意单一数据源的 2× 以上。人类数据提供多样性和多模态探索策略,RL 数据提供一致性和最优性——两者互补。
4.4 消融实验
| 设计选择 | 默认 | 替代方案 | 影响 |
|---|---|---|---|
| 架构 | ResNet + U-Net | ViT + MLP | ViT+MLP 收敛差,无法建模多模态 |
| 采样器 | DDIM(5 步) | DDPM(100 步) | DDPM 慢 10×,性能相当 |
| 学习率 | 余弦退火 | 固定 1e-6 / 1e-7 | 固定 LR 要么崩溃要么学不动 |
| 并行环境数 | 100 | 50 | 50 个环境导致策略坍塌 |
每个设计选择都对训练稳定性至关重要,说明扩散 RL 的成功不是"换个策略表示"那么简单,需要精心的工程调优。
4.5 数据质量分析
轨迹效率
- 人类演示含大量 no-op(4500 条轨迹中有 3007 个 no-op 时刻)
- RL 方法(高斯/扩散)的 no-op 数为 零
- 扩散 RL 的平均轨迹长度最短,尤其在长时域任务上
轨迹平滑度(Mean Squared Jerk)
- 高斯 RL:MSJ 最高(~1.5e-6),高频抖动严重
- 人类数据:中等(~0.8e-6)
- 扩散 RL:最低(~0.2e-6),轨迹最平滑
动作一致性(跨轨迹方差)
对同一任务 50 条成功轨迹的动作标准差:
- 人类数据:高方差(宽阴影区域),反映多模态操作策略
- 高斯 RL:方差高且末端抖动严重
- 扩散 RL:极低方差,收敛到近确定性的单一最优策略
这三项指标一致说明:扩散 RL 的去噪过程天然产生高效、平滑、一致的轨迹——恰好是 BC 训练所需的理想数据特性。
五、局限性与未来方向
5.1 仿真-真实差距
所有实验在 LIBERO 仿真中完成,扩散 RL 策略是否能在真实环境中同样稳定训练尚未验证。
5.2 每任务独立训练
当前为每个任务训练一个独立的扩散 RL 代理(~12M 参数/任务),130 个任务需要 130 个独立训练过程。虽然单个代理轻量,但总体训练预算随任务数线性增长。
5.3 OOD 泛化仍然有限
即使混合人类 + RL 数据,OOD 成功率也仅 5.20%。这反映了 LIBERO 基准本身的 OOD 难度,但也说明数据质量的提升不能完全替代架构和训练方法的改进。
5.4 奖励函数依赖
RL 训练依赖 LIBERO 提供的任务完成奖励。对于真实世界任务,如何设计或自动生成奖励函数仍是开放问题。
六、个人思考
6.1 数据工程 vs 算法创新
这篇论文的核心信息出人意料:数据质量比 VLA 架构更重要。同一个 π₀ 模型,仅替换训练数据就能提升 5.3%。这与 VLA RL 后训练方向(直接用 RL 微调 VLA)形成有趣的对比:
| 路线 | 代表工作 | 改了什么 | 不改什么 |
|---|---|---|---|
| RL 后训练 | VLA-RL, RLVLA | VLA 权重 | 数据 |
| 数据生成 | 本文, RLDG | 训练数据 | VLA 权重 |
两条路线不冲突——可以先用扩散 RL 生成高质量数据做 SFT,再用 RL 后训练进一步微调。
6.2 扩散策略 vs 高斯策略的本质差异
本文最有价值的实证发现是:用什么策略架构做 RL 数据生成,直接决定了下游 VLA 的性能。高斯 RL 数据甚至不如人类数据(69.32% vs 76.64%),而扩散 RL 数据则大幅领先(81.94%)。差距来源不是 RL 算法本身,而是策略表示的归纳偏置:
- 高斯策略:每步独立采样 → 高频抖动 → VLA 学到抖动
- 扩散策略:chunk-level 去噪 → 时序平滑 → VLA 学到一致运动
这与 SAC Flow 中 flow policy 的序列建模观点一致——动作生成过程本身的结构性对策略质量至关重要。
6.3 与 RPD 的互补关系
RPD 将 VLA 知识蒸馏为轻量 RL 专家(VLA → RL),本文则用 RL 专家为 VLA 生成训练数据(RL → VLA)。两者方向相反但目标一致:利用 RL 的交互优化能力弥补 VLA 的数据瓶颈。
有趣的是,RPD 引用了 RLDG 作为"反向范式"的代表,而本文正是 RLDG 的扩散 RL 升级版。如果将 RPD 和本文组合:先用 RPD 蒸馏 VLA → RL 专家 → 再用本文的稳定化训练进一步优化 → 收集数据反哺 VLA,形成良性循环。
6.4 数据一致性是关键
论文中最令人印象深刻的 figure 是动作一致性对比(Fig. 7):扩散 RL 的 50 条轨迹几乎重合,而人类和高斯 RL 都有很大分散。这说明 VLA 的 BC 训练本质上是回归问题——训练数据越一致(低方差),回归目标越清晰,VLA 学得越好。
这与 VLA-RFT 的世界模型数据生成思路异曲同工——两者都在追求"高质量、低方差"的训练信号,只是数据来源不同(环境交互 vs 世界模型想象)。
参考
- π₀ (Black et al., 2024):本文使用的 VLA 基础模型
- LIBERO (Liu et al., 2023):130 任务长时域操作基准
- Diffusion Policy (Chi et al., 2023):扩散策略原始工作
- DPPO (Ren et al., 2024):扩散策略策略优化(去噪步作为子决策)
- RLDG (Xu et al., 2024):高斯 RL 生成数据训练 VLA 通才策略
- RLVLA (Liu et al., 2025):RL 直接微调 VLA 的实证研究
- DDIM (Song et al., 2021):确定性扩散采样加速