Beyond Human Demonstrations——扩散 RL 生成高质量数据训练 VLA

论文：Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training
作者：Rushuai Yang*, Hangxing Wei*, Ran Zhang* 等
机构：HKUST、Microsoft Research Asia、Wuhan University、UCAS、Tsinghua、CSU
发布时间：2025 年 9 月（arXiv: 2509.19752v2）
🔗 arXiv
分类标签：Diffusion RL 数据生成 VLA 训练 PPO LIBERO

一句话总结

用轻量扩散策略（~12M 参数）配合 PPO 在线训练，为 LIBERO-130 中的每个任务训练出专家 RL 代理并收集高质量、低方差轨迹，再以标准 BC 微调 π₀ VLA 模型；纯 RL 合成数据训练的 VLA 达到 81.9% 平均成功率，比人类数据高 +5.3%、比高斯 RL 数据高 +12.6%。

一、问题与动机

1.1 VLA 的数据瓶颈

VLA 模型依赖大规模人类遥操作数据集（如 Open X-Embodiment），数据采集成本高且难以扩展。更关键的是，人类演示存在固有缺陷：

高方差 / 多模态：不同操作者策略不一致，动作分布呈多峰
操作冗余：包含犹豫停顿、空操作（no-op）
次优轨迹：人类操作不一定是最高效路径

1.2 高斯 RL 生成数据的局限

直接用标准高斯 RL（如 Gaussian PPO）生成替代数据看似可行，但在 LIBERO 这类长时域、稀疏奖励任务上：

高斯策略假设单峰分布，无法拟合多模态人类演示的 warm-start
生成的轨迹存在高频抖动（jitter），尤其在任务末端
学习不稳定，生成大量失败 / 次优轨迹

1.3 核心洞察：扩散策略的双重优势

作者发现扩散策略在 RL 数据生成中具有独特优势：

表达力强：能拟合多模态分布，warm-start 阶段不会"平均化"不同操作模式
隐式正则化：迭代去噪过程天然鼓励时序平滑——产生一个突兀动作需要整个去噪链协调配合，概率极低；而平滑连贯的动作序列是去噪的自然输出

用大白话说：高斯策略每步独立采样一个动作，容易"手抖"；扩散策略同时生成整个 action chunk 并逐步精炼，天然产生流畅运动。

1.4 与已有范式的定位

范式	代表工作	数据来源	VLA 训练方式
人类遥操作	LIBERO, Open X-Embodiment	人类演示	BC
RL 直接微调 VLA	RLVLA, VLA-RL	RL 在线交互	PPO/GRPO 微调 VLA 参数
RL 生成数据 → VLA	RLDG（高斯 RL）	RL 专家轨迹	BC（不改 VLA 训练范式）
本文	—	扩散 RL 专家轨迹	BC（标准流程，即插即用）

本文的关键优势：不改变 VLA 训练流程，只替换数据源。生成的数据可与人类数据、世界模型数据等任意组合，无缝接入现有 VLA 训练 pipeline。

二、预备知识

2.1 Diffusion Policy

扩散策略 $π_{θ}$ 通过学习逆扩散过程生成动作：

前向扩散：逐步向干净动作 $a^{0}$ 添加高斯噪声

a^{k} = \sqrt{{\bar{α}}_{k}} a^{0} + \sqrt{1 - {\bar{α}}_{k}} ϵ, ϵ \sim N (0, I)

反向去噪：噪声预测网络 $ϵ_{θ} (a^{k}, s_{t}, k)$ 学习预测噪声，BC 训练目标：

L_{BC} (θ) = E_{k, (s_{t}, a^{0}), ϵ} [{‖ ϵ - ϵ_{θ} (\sqrt{{\bar{α}}_{k}} a^{0} + \sqrt{1 - {\bar{α}}_{k}} ϵ, s_{t}, k) ‖}^{2}]

推理时：从纯噪声 $a^{K} \sim N (0, I)$ 出发，经 $K$ 步去噪得到动作 $a^{0}$ 。

2.2 Diffusion RL：去噪步作为子决策

扩散策略的 $π_{θ} (a^{0} | s_{t})$ 不可解析计算（需对整个去噪链积分），因此无法直接用 PPO。解决方案（DPPO 等工作的思路）：将 $K$ 步去噪过程视为子轨迹，每步转移 $p_{θ} (a^{k - 1} | a^{k}, s_{t})$ 是可计算的高斯分布。

PPO 的似然比改为对去噪步计算：

r_{t, k} (θ) = \frac{p_{θ} (a^{k - 1} | a^{k}, s_{t})}{p_{θ_{old}} (a^{k - 1} | a^{k}, s_{t})}

策略梯度遍历所有时间步 $t$ 和去噪步 $k$ ：

L_{Policy} (θ) = E_{t, k} [min (r_{t, k} (θ) {\hat{A}}_{t}, clip (r_{t, k} (θ), 1 - ϵ, 1 + ϵ) {\hat{A}}_{t})]

价值函数使用标准 GAE：

{\hat{A}}_{t} = \sum_{l = 0}^{\infty} (γ λ)^{l} δ_{t + l}, δ_{t} = r_{t} + γ V_{ϕ} (s_{t + 1}) - V_{ϕ} (s_{t})

三、核心方法

3.1 三阶段 Pipeline

Phase 1: BC Warm-Start     Phase 2: Online RL      Phase 3: VLA Training
┌─────────────────┐   ┌─────────────────────┐   ┌──────────────────┐
│ 人类演示 Dhuman  │   │ 扩散策略 + PPO       │   │ 收敛策略收集     │
│ → 训练扩散策略   │──→│ 在线交互优化         │──→│ 高质量轨迹 D_RL  │──→ π₀ VLA BC 微调
│ （多模态拟合）   │   │ （最大化累积奖励）   │   │ → 标准 BC 训练   │
└─────────────────┘   └─────────────────────┘   └──────────────────┘

3.2 Phase 1：多模态 BC Warm-Start

用少量人类演示（每任务 50 条）训练扩散策略。扩散模型的多模态拟合能力在这一阶段至关重要：

高斯策略会"平均化"不同操作模式，warm-start 效果差
扩散策略忠实拟合多峰分布，为 RL 提供高质量初始策略

3.3 Phase 2：稳定化在线 RL

直接对扩散策略做 PPO 训练面临严重的稳定性问题。本文提出四项关键改进：

(1) 架构设计：ResNet + U-Net + FiLM

架构	BC 阶段表现	RL 阶段稳定性
ViT + MLP	低数据 regime 拟合差	MLP 无法建模多模态
ViT + U-Net	视觉编码效率低	较好
ResNet + U-Net（本文）	ResNet 归纳偏置 → 高样本效率	U-Net 建模多模态 + FiLM 稳定条件化

FiLM 机制将本体感知信息注入扩散网络，提供比简单拼接更稳定的条件化信号。

(2) DDIM 快速采样

标准 DDPM 采样（100 步）在 RL 训练中有两大问题：

速度慢：每步环境交互需 1370.5 ms
方差高：随机去噪引入额外动作噪声，干扰 Critic 更新

切换到 DDIM 确定性采样（5 步）：

速度提升 ~10×（137.1 ms）
动作方差更低，策略梯度更稳定

(3) 余弦退火学习率

η (t) = η_{min} + \frac{1}{2} (η_{max} - η_{min}) (1 + \cos \frac{π t}{T})

初期大学习率：鼓励探索，跳出 BC 局部最优
后期小学习率：稳定收敛，保留 BC 阶段学到的先验

固定学习率的问题：太大则策略崩溃，太小则学习太慢。

(4) 大规模并行环境防止模式坍塌

这是最关键的发现之一。扩散策略的高表达力是把双刃剑：

如果每次 PPO 更新只用少量相关轨迹，策略会快速过拟合这些轨迹的偏置
多模态分布坍塌为单一次优模式 → 后续 rollout 产生更差数据 → 恶性循环

解决方案：使用 100 个并行环境填充 replay buffer，确保每次更新的经验足够多样化。

3.4 Phase 3：VLA 标准 BC 训练

收敛后的扩散 RL 策略为每个任务生成 50 条最优轨迹，构成数据集 $D_{RL}$ 。VLA 训练使用标准负对数似然损失：

L_{VLA} = - E_{(o_{t}, a_{t}, l) \in D_{RL}} [\log Π_{VLA} (a_{t} | o_{t}, l)]

对于 π₀ 这类连续动作空间模型，等价于 MSE 或 flow matching 损失。所有 VLA 训练超参数保持一致，仅替换数据源。

四、实验结果

4.1 实验设置

基准：LIBERO-130（5 个子集，130 个长时域操作任务）
VLA 模型：π₀
对比数据源：人类演示（50 条/任务）、高斯 RL 数据、扩散 RL 数据（本文）
评估：每个任务 50 次评估，随机初始化

4.2 分布内成功率

数据源	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	LIBERO-90	平均
人类数据	73.40	92.00	83.20	66.00	68.60	76.64
高斯 RL 数据	80.40	61.80	82.40	47.00	75.00	69.32
扩散 RL 数据	83.40	99.00	83.80	63.00	80.49	81.94

关键观察：

扩散 RL 数据在 5 个子集中的 4 个上领先，平均 +5.3% 超越人类数据
高斯 RL 数据在 LIBERO-Object 上惨败（61.80% vs 99.00%），因策略不稳定产生大量次优轨迹
LIBERO-Long 上人类数据略优（66.00 vs 63.00），可能因长时域任务中人类演示的多样性仍有价值

4.3 分布外泛化

在 LIBERO-90 上预训练，零样本评估未见任务：

数据源	LIBERO-Long	LIBERO-Goal	LIBERO-Object	平均
人类数据	0.00	0.00	4.40	1.47
扩散 RL 数据	1.40	0.00	4.80	2.06
人类 + 扩散 RL	4.60	5.60	5.40	5.20

关键发现：混合数据的效果是任意单一数据源的 2× 以上。人类数据提供多样性和多模态探索策略，RL 数据提供一致性和最优性——两者互补。

4.4 消融实验

设计选择	默认	替代方案	影响
架构	ResNet + U-Net	ViT + MLP	ViT+MLP 收敛差，无法建模多模态
采样器	DDIM（5 步）	DDPM（100 步）	DDPM 慢 10×，性能相当
学习率	余弦退火	固定 1e-6 / 1e-7	固定 LR 要么崩溃要么学不动
并行环境数	100	50	50 个环境导致策略坍塌

每个设计选择都对训练稳定性至关重要，说明扩散 RL 的成功不是"换个策略表示"那么简单，需要精心的工程调优。

4.5 数据质量分析

轨迹效率

人类演示含大量 no-op（4500 条轨迹中有 3007 个 no-op 时刻）
RL 方法（高斯/扩散）的 no-op 数为零
扩散 RL 的平均轨迹长度最短，尤其在长时域任务上

轨迹平滑度（Mean Squared Jerk）

MSJ = \frac{1}{T} \sum_{t = 1}^{T} {‖ \frac{d^{3} x}{d t^{3}} ‖}^{2}

高斯 RL：MSJ 最高（~1.5e-6），高频抖动严重
人类数据：中等（~0.8e-6）
扩散 RL：最低（~0.2e-6），轨迹最平滑

动作一致性（跨轨迹方差）

对同一任务 50 条成功轨迹的动作标准差：

人类数据：高方差（宽阴影区域），反映多模态操作策略
高斯 RL：方差高且末端抖动严重
扩散 RL：极低方差，收敛到近确定性的单一最优策略

这三项指标一致说明：扩散 RL 的去噪过程天然产生高效、平滑、一致的轨迹——恰好是 BC 训练所需的理想数据特性。

五、局限性与未来方向

5.1 仿真-真实差距

所有实验在 LIBERO 仿真中完成，扩散 RL 策略是否能在真实环境中同样稳定训练尚未验证。

5.2 每任务独立训练

当前为每个任务训练一个独立的扩散 RL 代理（~12M 参数/任务），130 个任务需要 130 个独立训练过程。虽然单个代理轻量，但总体训练预算随任务数线性增长。

5.3 OOD 泛化仍然有限

即使混合人类 + RL 数据，OOD 成功率也仅 5.20%。这反映了 LIBERO 基准本身的 OOD 难度，但也说明数据质量的提升不能完全替代架构和训练方法的改进。

5.4 奖励函数依赖

RL 训练依赖 LIBERO 提供的任务完成奖励。对于真实世界任务，如何设计或自动生成奖励函数仍是开放问题。

六、个人思考

6.1 数据工程 vs 算法创新

这篇论文的核心信息出人意料：数据质量比 VLA 架构更重要。同一个 π₀ 模型，仅替换训练数据就能提升 5.3%。这与 VLA RL 后训练方向（直接用 RL 微调 VLA）形成有趣的对比：

路线	代表工作	改了什么	不改什么
RL 后训练	VLA-RL, RLVLA	VLA 权重	数据
数据生成	本文, RLDG	训练数据	VLA 权重

两条路线不冲突——可以先用扩散 RL 生成高质量数据做 SFT，再用 RL 后训练进一步微调。

6.2 扩散策略 vs 高斯策略的本质差异

本文最有价值的实证发现是：用什么策略架构做 RL 数据生成，直接决定了下游 VLA 的性能。高斯 RL 数据甚至不如人类数据（69.32% vs 76.64%），而扩散 RL 数据则大幅领先（81.94%）。差距来源不是 RL 算法本身，而是策略表示的归纳偏置：

高斯策略：每步独立采样 → 高频抖动 → VLA 学到抖动
扩散策略：chunk-level 去噪 → 时序平滑 → VLA 学到一致运动

这与 SAC Flow 中 flow policy 的序列建模观点一致——动作生成过程本身的结构性对策略质量至关重要。

6.3 与 RPD 的互补关系

RPD 将 VLA 知识蒸馏为轻量 RL 专家（VLA → RL），本文则用 RL 专家为 VLA 生成训练数据（RL → VLA）。两者方向相反但目标一致：利用 RL 的交互优化能力弥补 VLA 的数据瓶颈。

有趣的是，RPD 引用了 RLDG 作为"反向范式"的代表，而本文正是 RLDG 的扩散 RL 升级版。如果将 RPD 和本文组合：先用 RPD 蒸馏 VLA → RL 专家 → 再用本文的稳定化训练进一步优化 → 收集数据反哺 VLA，形成良性循环。

6.4 数据一致性是关键

论文中最令人印象深刻的 figure 是动作一致性对比（Fig. 7）：扩散 RL 的 50 条轨迹几乎重合，而人类和高斯 RL 都有很大分散。这说明 VLA 的 BC 训练本质上是回归问题——训练数据越一致（低方差），回归目标越清晰，VLA 学得越好。

这与 VLA-RFT 的世界模型数据生成思路异曲同工——两者都在追求"高质量、低方差"的训练信号，只是数据来源不同（环境交互 vs 世界模型想象）。

参考

π₀ (Black et al., 2024)：本文使用的 VLA 基础模型
LIBERO (Liu et al., 2023)：130 任务长时域操作基准
Diffusion Policy (Chi et al., 2023)：扩散策略原始工作
DPPO (Ren et al., 2024)：扩散策略策略优化（去噪步作为子决策）
RLDG (Xu et al., 2024)：高斯 RL 生成数据训练 VLA 通才策略
RLVLA (Liu et al., 2025)：RL 直接微调 VLA 的实证研究
DDIM (Song et al., 2021)：确定性扩散采样加速

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

Beyond Human Demonstrations——扩散 RL 生成高质量数据训练 VLA ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 的数据瓶颈 ​

1.2 高斯 RL 生成数据的局限 ​

1.3 核心洞察：扩散策略的双重优势 ​

1.4 与已有范式的定位 ​

二、预备知识 ​

2.1 Diffusion Policy ​

2.2 Diffusion RL：去噪步作为子决策 ​

三、核心方法 ​

3.1 三阶段 Pipeline ​

3.2 Phase 1：多模态 BC Warm-Start ​

3.3 Phase 2：稳定化在线 RL ​

(1) 架构设计：ResNet + U-Net + FiLM ​

(2) DDIM 快速采样 ​

(3) 余弦退火学习率 ​

(4) 大规模并行环境防止模式坍塌 ​

3.4 Phase 3：VLA 标准 BC 训练 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 分布内成功率 ​

4.3 分布外泛化 ​

4.4 消融实验 ​

4.5 数据质量分析 ​

轨迹效率 ​

轨迹平滑度（Mean Squared Jerk） ​

动作一致性（跨轨迹方差） ​

五、局限性与未来方向 ​

5.1 仿真-真实差距 ​

5.2 每任务独立训练 ​

5.3 OOD 泛化仍然有限 ​

5.4 奖励函数依赖 ​

六、个人思考 ​

6.1 数据工程 vs 算法创新 ​

6.2 扩散策略 vs 高斯策略的本质差异 ​

6.3 与 RPD 的互补关系 ​

6.4 数据一致性是关键 ​

参考 ​