Skip to content

π-StepNFT:更宽的探索空间需要更细粒度的监督——Flow-based VLA 的在线 RL 框架

论文π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

作者:Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang

机构:GigaAI、中国科学院自动化研究所、中国科学院大学、清华大学、中关村学院、爱丁堡大学、伦敦大学学院

发布时间:2026年3月

链接arXiv | 项目主页


一句话总结

提出 π-StepNFT,一个无 Critic、无似然的在线 RL 框架:通过 SDE 采样拓宽探索空间,将监督目标从终端 x0 下移到逐步转移 xtxt,并用 logistic 对比排序损失替代 weighted-MSE 消除隐式惩罚,在 LIBERO few-shot 上比 SFT 提升 32.9%,ManiSkill OOD 场景比 PPO 高 11.1%。


一、问题与动机

1.1 Flow-based VLA 的 RL 瓶颈

当前最先进的 VLA 模型(如 π₀、π₀.₅)普遍采用 flow matching 作为动作生成范式。Flow matching 通过学习一个时间依赖的向量场 vθ(x,t,c),将高斯噪声 x1N(0,I) 通过 ODE 积分映射为动作 x0

然而,用 RL 微调 flow-based VLA 面临一个根本性瓶颈

  • 似然不可计算:标准策略梯度需要 logπθ(a|s),但 flow policy 的对数似然需要沿整个生成轨迹积分 Jacobian 迹,计算代价极高且数值不稳定
  • ODE 确定性导致探索不足:确定性 ODE rollout 的探索空间完全受限于初始噪声分布,策略很快坍缩到一条窄线(narrow manifold),缺乏自我改进的能力

1.2 现有方案的不足

面对上述瓶颈,现有方法各有局限:

方法策略局限
GR-RL隐空间价值蒸馏绕过似然需要额外的 value network,容易过拟合多模态特征
π₀.₆*偏好反馈 + 离线 RL不做在线探索,受限于离线数据分布
πRLODE → SDE 变换近似似然仍需 PPO + Critic,Critic 在视觉多样场景易过拟合
Diffusion-NFT前向过程上的无似然优化专为图像生成设计,直接迁移到具身控制效果不佳

1.3 核心洞察:Wider Space Needs Finer Steps

论文的核心观察可以用 Figure 1 中的三栏对比来理解:

左栏(ODE):确定性 ODE 采样下,中间状态 xt 沿一条窄轨迹行进。在终端 x0 上做"点对点"监督是合理的,但探索范围太窄。

中栏(Naive SDE):引入 SDE 注入噪声,探索空间变宽了,但仍然用终端 x0 做监督。问题是:噪声沿 denoising 路径累积放大,最终的 x0 方差极大,终端监督信号变得粗糙且不稳定。

右栏(π-StepNFT):保留 SDE 的宽探索空间,但将监督目标下移到每一步转移 xtxt,提供精确的局部梯度。同时用方差归一化消除不同时间步的尺度差异。

用大白话说:如果你在一个大迷宫里探索(SDE 扩大了探索范围),光告诉你终点在哪里(终端监督)是不够的——你需要在每个岔路口都有路标(逐步监督)才不会迷路。迷宫越大,路标就需要越密集。


二、预备知识

2.1 Flow Matching 基础

VLA 策略生成连续动作 x0Rd,条件为上下文 c(包含视觉观测和语言指令)。Flow matching 学习向量场 vθ(x,t,c),训练目标是:

LCFM(θ)=Et,x0,x1[vθ(xt,t,c)ut2]

其中 xt=tx1+(1t)x0ut=x1x0

ODE 采样(确定性):从 t=1t=0 积分 dx=vθ(x,t,c)dt,Euler 离散化为:

(1)xt=xtvθ(xt,t,c)δt

SDE 采样(随机性):注入噪声保持边际分布,Euler-Maruyama 离散化为:

(2)xt=xt+[vθ(xt,t)+σt22t(xt+(1t)vθ(xt,t))](δt)+σtδtϵ

其中 ϵN(0,I)

2.2 SDE 采样的仿射结构

SDE 的每一步转移诱导出一个高斯转移密度

qθ,t(xt|xt,c)=N(μθ,t(xt,c), Σt)

关键性质:转移均值是向量场输出的仿射函数

(3)μθ,t(xt,c)=Ut(xt,t)+Bt(t)vθ(xt,t,c)

其中 Ut=1σt2δt2tBt=δt(1t)σt2δt2t 是由噪声调度预确定的系数。

这个仿射关系至关重要——它意味着我们可以直接从转移目标高效地将梯度传回策略参数,无需通过 ODE solver 做反向传播。

2.3 RL 微调与似然鸿沟

标准策略梯度:

θJ(θ)=Eτ[iθlogπθ(ai|si)Ψi]

但 flow policy 的 logπθ(ai|si) 需要沿生成轨迹积分变量变换公式中的 Jacobian 迹,计算代价高且数值不稳定。这就是 likelihood gap——标准 RL 算法无法直接用于 flow-based VLA。


三、核心方法

π-StepNFT 是一个两阶段交替的在线 RL 框架(见 Algorithm 1):Phase 1 收集数据,Phase 2 优化策略。

3.1 数据收集:SDE Rollout + 逐步记录

对每个任务,用 rollout 策略 πθold 在环境中执行 H 步。在每个环境步 i

  1. 运行 K 步 Flow-SDE solver,生成 denoising 链 {xtj}j=0K
  2. 均匀采样一个 solver 步 jU{0,,K1},记录转移 (xt,xt)=(xtj,xtj+1)
  3. 记录 rollout 向量场 vtold=πθold(c,si,xt,t)
  4. 执行最终动作 xtK,收集环境反馈

Episode 结束后获得终端信号 r{0,1}(成功/失败),所有 (xt,xt,vtold,t,s,c,r) 存入缓冲区 D

为什么只采样一个 solver 步? 效率考虑。具身控制中 K 通常很小(论文用 K=4),随机采样保证所有 denoising 阶段都能被覆盖。消融实验(Appendix D)表明随机选择优于固定某一步。

3.2 镜像分支构造(Mirror Errors)

这是 π-StepNFT 的基础构件,继承自 Diffusion-NFT 的思想。

给定当前策略预测 vθ=πθ(c,s,xt,t) 和 rollout 策略预测 vold,定义更新方向 Δvθ=vθvold,然后构造两个关于 vold 对称的镜像分支

(4)vθ+=(1β)vold+βvθ=vold+βΔvθ(5)vθ=(1+β)voldβvθ=voldβΔvθ

其中 β>0 是信任域超参数。对称性保证 vθ+vold=voldvθ=βΔvθ

直觉v+ 代表"沿更新方向走一步"的假设,v 代表"反方向走一步"的假设。通过比较这两个假设对观测到的转移的解释能力,我们可以判断更新方向是否正确。

由于仿射结构(Eq. 3),两个镜像速度诱导两个高斯均值 μθ,t±,共享协方差 Σt。然后计算方差归一化的步误差

(6)Eθ,t+=xtμθ,t+Σt12,Eθ,t=xtμθ,tΣt12

E+ 衡量正向分支对观测转移的拟合度,E 衡量反向分支的拟合度。用 Σt 归一化可以稳定不同时间步的梯度尺度

3.3 逐步对比排序目标(Step-wise Contrastive Objective)

给定采样的 solver 转移 (xtxt) 及 episode 标签 y=2r1{1,+1},π-StepNFT 的损失为:

(7)t(θ)=softplus(12y(Eθ,t+Eθ,t))

含义

  • 成功 episode(y=+1):希望 E+<E,即正向分支比反向分支更好地解释观测转移 → 更新方向正确
  • 失败 episode(y=1):希望 E+>E,即正向分支对观测转移解释更差 → 应该反转更新方向

与似然比的关系(Lemma 4.2):由于两个分支共享协方差 Σt,误差差等于对数似然比:

(8)logqθ,t+(xt|xt,c)qθ,t(xt|xt,c)=12(Eθ,t+Eθ,t)

所以最小化 t 实际上是在调整构造的转移似然比,让它与 episode 标签一致。

3.4 理论保证:梯度方向与 Oracle 对齐

Theorem 4.4 是论文最核心的理论结果,包含三个层次:

(a) 误差差的闭式表达

(9)Eθ,t+Eθ,t=4Σt1et, dt

其中 et=xtμtold(rollout 残差),dt=μθ,t+μtold=βBtΔvθ(均值位移)。

用大白话说:误差差完全由残差 et 与位移 dt内积决定。如果策略更新的方向与残差对齐,排序信号就越强。

(b) 梯度形式

(10)θt(θ)σ(zt)y(vθθ)BtΣt1et

梯度方向由残差 etΣt1 归一化后、再通过仿射系数 Bt 和策略 Jacobian 传回参数空间。

(c) 小步对齐:在二元成功信号下且更新较小时,条件期望梯度方向与 oracle 均值差 Δμt 对齐:

(11)E[θt(θ)|xt,c](vθθ)BtΣt1Δμt(xt,c)

Δμt 是 oracle 后验分割(将 rollout 后验分解为成功条件和失败条件两个分支后的均值差),代表理想的局部改进方向。论文证明我们的可计算代理梯度在期望意义下指向这个理想方向。

3.5 与 Diffusion-NFT(Weighted-MSE)的对比

Diffusion-NFT 使用 reward-weighted MSE 目标:

twMSE(θ)=rEθ,t++(1r)Eθ,t

Theorem 4.5 揭示了这个目标的分解:

(12)twMSE(θ)=const2yΣt1et,dt+dtΣt12

对比 π-StepNFT 的核心项(Eq. 9):E+E=4Σt1et,dt,可以看到 wMSE 多了一个 dtΣt12 项,这就是隐式分离惩罚(implicit separation penalty)

这个惩罚项的问题:

  • 与标签 y 无关,无条件地抑制分支分离
  • 即使数据强烈指示应该做一个大的修正步(etdt 高度对齐),惩罚项也会压制更新幅度
  • 在二元奖励下,wMSE 退化为只拟合一个分支(r=1 时只拟合 E+),无法同时利用正负信号

π-StepNFT 的 Push-Pull 动力学:对比排序损失同时"拉近"正分支、"推远"负分支,产生更强的分离梯度和更快的收敛。这是与 wMSE 的本质区别。

3.6 完整训练流程

  1. 初始化 θθold,清空缓冲区 D
  2. 数据收集:用 πθold 做 SDE rollout,对每个环境步随机采样一个 solver 转移,记录 (xt,xt,vtold,t,s,c) 和 episode 终端奖励 r
  3. 优化:对缓冲区中的 mini-batch 计算:
    • 当前策略预测 vθ,tπθ(c,s,xt,t)
    • 更新方向 Δvθvθ,tvtold
    • 镜像分支 vθ±vtold±βΔvθ
    • 均值和方差 μθ,t±,Σt
    • 步误差 Eθ,t±
    • 总损失 Ltotal=softplus(12yΔEθ)+λTRΔvθ2
    • 梯度下降更新 θ
  4. EMA 更新 rollout 策略:θoldαmθold+(1αm)θ
  5. 清空缓冲区,回到步骤 2

关键设计细节

  • 冻结 VLM backbone,只微调 action expert(约 300M 参数)
  • 信任域正则 λTRΔvθ2 防止偏离 rollout 策略太远
  • EMA 衰减率从 0.1 动态增长到 0.995,平衡早期加速与后期稳定

四、实验结果

4.1 实验设置

模型:π₀ 和 π₀.₅(PaliGemma-3B backbone + ~300M flow-matching action expert)

基准

  • LIBERO:4 个任务套件(Spatial、Object、Goal、Long),每套件 10 个子任务 × 50 个初始状态 = 500 episodes。Few-shot SFT 初始化(π₀ 用 58-208 条轨迹,π₀.₅ 用 40 条)
  • ManiSkill:PutOnPlateInScene,4352 个组合任务(16 物体 × 17 容器 × 16 场景),测试 IND 和 OOD 泛化

硬件:主实验 8× H100 80GB,消融实验 8× RTX 4090 48GB

4.2 LIBERO:Few-shot SFT 后的潜力释放

模型SpatialObjectGoalLongAvg.Δ Avg.
π₀ SFT65.364.449.851.257.6
πRL (PPO)98.499.496.290.296.0+38.4
πRL (GRPO)97.897.883.281.490.0+32.4
π-StepNFT93.598.083.786.790.5+32.9
π₀.₅ SFT84.695.484.643.977.1
πRL (PPO)99.610098.893.097.9+20.8
πRL (GRPO)97.499.891.277.691.5+14.4
π-StepNFT97.810098.279.894.0+16.9

关键观察

  • π-StepNFT 在无 Critic、无似然的条件下,达到了与 PPO 可比的性能
  • 在短时域任务(Object)上与 PPO 打平,说明逐步监督在局部修正能力上非常有效
  • 比同为无 Critic 的 GRPO 在 Long 任务上显著更好(π₀: 86.7% vs 81.4%),说明逐步监督提供了比 GRPO 更精细的信用分配
  • PPO 在 Long 任务上仍有优势,因为 Critic 提供了时间信用分配

4.3 ManiSkill:无 Critic 的 OOD 泛化优势

模型INDVision (OOD)Semantic (OOD)Execution (OOD)OOD Avg.
π₀ Full SFT38.432.68.413.218.1
πRL (PPO)78.861.125.431.539.3
π-StepNFT79.269.149.133.150.4
π₀.₅ Full SFT40.140.216.622.426.4
πRL (PPO)90.968.034.545.449.3
π-StepNFT85.476.956.645.159.5

核心发现

  • IND 性能与 PPO 相当,但 OOD 全面领先
  • π₀ 上 OOD 平均 50.4% vs PPO 的 39.3%(+11.1%
  • Semantic OOD(未见物体/指令)上差距最大:49.1% vs 25.4%,几乎翻倍
  • 原因分析:PPO 的 Critic 从视觉-语言嵌入估计价值,容易过拟合到训练分布中的视觉纹理和特定语言表述。π-StepNFT 完全依赖真实环境反馈(二元成功信号),避免了 Critic 引入的多模态过拟合

4.4 消融实验

4.4.1 SDE vs ODE 探索

采样策略效果
确定性 ODE早期就平台期,受限于窄 manifold
SDE 无均值修正探索更宽但学习信号未对齐
SDE + 均值修正显著提升,噪声感知的学习信号是关键

结论:有效探索不仅需要遍历更宽的空间,还需要学习信号能数学上将噪声转移对齐回策略的向量场。

4.4.2 逐步监督 vs 终端监督

监督目标稳定性收敛速度
x0(终端,σ0=0.9不稳定,需保守同步
x0(终端,σ0=0.1略好但仍不稳定
xt(逐步,σ0=0.1稳定,激进更新下也不崩溃

结论:精确的局部监督是抵消 SDE 探索引入的分布偏移的关键。终端监督的梯度太粗糙,无法维持 manifold 上的有效学习。

4.4.3 对比排序 vs wMSE

  • wMSE 在二元奖励下退化为单分支拟合,无法利用正负信号
  • 对比排序同时利用 Positive 和 Negative 分支,产生 push-pull 动力学
  • 单独用 Positive 或 Negative 分支都有部分提升,结合两者效果最好

4.4.4 无需 Critic

  • 二元轨迹级奖励 vs 归一化 GRPO 优势 vs 归一化 GAE 优势
  • 二元信号产生更平滑的训练动态,因为利用的是准确的环境 ground-truth
  • 有界的成功概率 r[0,1] 绕过了无界优势分数需要的复杂归一化和裁剪

4.4.5 超参数敏感性

  • 噪声水平 σ:0.2 最优。太大阻碍收敛(搜索空间过大),太小限制探索
  • 信任域 β[1.0,2.0] 最优。太大违反局部线性假设,太小梯度不稳
  • EMA 衰减 α:动态策略(0.1 → 0.995)最优。常数或过高/过低衰减都不好

五、局限性与未来方向

  1. 长时域任务的信用分配:π-StepNFT 使用 episode 级别的二元奖励,在 Long-horizon 任务上不如 PPO 的 Critic 提供的时间信用分配。论文指出可以无缝替换为离线学习的逐步成功概率预测器
  2. 探索效率:SDE 注入均匀噪声,未考虑任务结构,可能在高维动作空间中探索效率较低
  3. 真实世界验证:实验全部在仿真中完成,真实机器人上的效果有待验证
  4. 与 Critic 方法的结合:论文定位为 Critic-free 方案,但在 IND 场景下 PPO 仍有优势,两者的互补可能是有价值的方向

六、个人思考

6.1 与项目中已有论文的联系

与 Diffusion-NFT 的关系:π-StepNFT 本质上是将 Diffusion-NFT 的镜像构造从图像生成迁移到具身控制,但做了三个关键改进:ODE→SDE、终端→逐步、wMSE→排序。论文的贡献更多是发现并解决领域迁移中的关键差距,而非提出全新框架。

与 πRL 的关系:πRL 同样将 ODE 转为 SDE 来近似似然,但仍依赖 PPO + Critic。π-StepNFT 走了一条更极端的路——完全绕过似然和 Critic。ManiSkill OOD 结果表明,在需要泛化的场景下,去掉 Critic 反而是优势。

与 GRPO 系列(SimpleVLA-RL、TGRPO)的对比:这些方法也是无 Critic 的,但它们在 episode 级别用组相对优势做信用分配,而 π-StepNFT 的逐步监督提供了更细粒度的信号。Long 任务上的优势验证了这一点。

与 FPO++ 的对比:FPO++ 用 CFM 损失差值来近似似然比,属于"近似似然"路线;π-StepNFT 用镜像构造完全绕过似然,属于"无似然"路线。两者代表了 flow policy RL 的两条技术路线。

6.2 方法论洞察

论文最有价值的 insight 是**"探索宽度与监督粒度必须匹配"**这一原则。这不仅适用于 flow-based VLA,可能是一个更普遍的 RL 设计原则——任何扩大探索范围的策略(如更高的温度、更多的噪声注入)都需要配套更精细的监督信号。

6.3 实用性评估

π-StepNFT 的实用优势明显:

  • 单次前向传播/优化步(vs PPO 需要 Critic 前向+反向)
  • 无需训练和维护 value network
  • 在 OOD 场景下泛化更好

但也有明显局限:

  • 二元奖励在长时域任务上的信用分配不如 Critic
  • IND 性能被 PPO 压制
  • 需要仔细调节 σβα 三个超参数

参考

  • Diffusion-NFT(Zheng et al., 2025):提出镜像构造和无似然优化的原始框架,π-StepNFT 的直接基础
  • πRL(Chen et al., 2025):Flow-SDE 采样 + PPO 的在线 RL 方案,π-StepNFT 使用其 SFT checkpoint 初始化
  • π₀ / π₀.₅(Black et al., 2026/2025):实验使用的基础 VLA 模型
  • Diffusion-DPO(Wallace et al., 2024):扩散模型的偏好优化,对比排序思想的来源之一
  • RL4VLA(Liu et al., 2026):ManiSkill 基准设置的来源
  • RLinf(Yu et al., 2025):π-StepNFT 的实现基于此 RL 训练框架