π-StepNFT:更宽的探索空间需要更细粒度的监督——Flow-based VLA 的在线 RL 框架
论文:π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs
作者:Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
机构:GigaAI、中国科学院自动化研究所、中国科学院大学、清华大学、中关村学院、爱丁堡大学、伦敦大学学院
发布时间:2026年3月
一句话总结
提出 π-StepNFT,一个无 Critic、无似然的在线 RL 框架:通过 SDE 采样拓宽探索空间,将监督目标从终端
一、问题与动机
1.1 Flow-based VLA 的 RL 瓶颈
当前最先进的 VLA 模型(如 π₀、π₀.₅)普遍采用 flow matching 作为动作生成范式。Flow matching 通过学习一个时间依赖的向量场
然而,用 RL 微调 flow-based VLA 面临一个根本性瓶颈:
- 似然不可计算:标准策略梯度需要
,但 flow policy 的对数似然需要沿整个生成轨迹积分 Jacobian 迹,计算代价极高且数值不稳定 - ODE 确定性导致探索不足:确定性 ODE rollout 的探索空间完全受限于初始噪声分布,策略很快坍缩到一条窄线(narrow manifold),缺乏自我改进的能力
1.2 现有方案的不足
面对上述瓶颈,现有方法各有局限:
| 方法 | 策略 | 局限 |
|---|---|---|
| GR-RL | 隐空间价值蒸馏绕过似然 | 需要额外的 value network,容易过拟合多模态特征 |
| π₀.₆* | 偏好反馈 + 离线 RL | 不做在线探索,受限于离线数据分布 |
| πRL | ODE → SDE 变换近似似然 | 仍需 PPO + Critic,Critic 在视觉多样场景易过拟合 |
| Diffusion-NFT | 前向过程上的无似然优化 | 专为图像生成设计,直接迁移到具身控制效果不佳 |
1.3 核心洞察:Wider Space Needs Finer Steps
论文的核心观察可以用 Figure 1 中的三栏对比来理解:
左栏(ODE):确定性 ODE 采样下,中间状态
中栏(Naive SDE):引入 SDE 注入噪声,探索空间变宽了,但仍然用终端
右栏(π-StepNFT):保留 SDE 的宽探索空间,但将监督目标下移到每一步转移
用大白话说:如果你在一个大迷宫里探索(SDE 扩大了探索范围),光告诉你终点在哪里(终端监督)是不够的——你需要在每个岔路口都有路标(逐步监督)才不会迷路。迷宫越大,路标就需要越密集。
二、预备知识
2.1 Flow Matching 基础
VLA 策略生成连续动作
其中
ODE 采样(确定性):从
SDE 采样(随机性):注入噪声保持边际分布,Euler-Maruyama 离散化为:
其中
2.2 SDE 采样的仿射结构
SDE 的每一步转移诱导出一个高斯转移密度:
关键性质:转移均值是向量场输出的仿射函数:
其中
这个仿射关系至关重要——它意味着我们可以直接从转移目标高效地将梯度传回策略参数,无需通过 ODE solver 做反向传播。
2.3 RL 微调与似然鸿沟
标准策略梯度:
但 flow policy 的
三、核心方法
π-StepNFT 是一个两阶段交替的在线 RL 框架(见 Algorithm 1):Phase 1 收集数据,Phase 2 优化策略。
3.1 数据收集:SDE Rollout + 逐步记录
对每个任务,用 rollout 策略
- 运行
步 Flow-SDE solver,生成 denoising 链 - 均匀采样一个 solver 步
,记录转移 - 记录 rollout 向量场
- 执行最终动作
,收集环境反馈
Episode 结束后获得终端信号
为什么只采样一个 solver 步? 效率考虑。具身控制中
3.2 镜像分支构造(Mirror Errors)
这是 π-StepNFT 的基础构件,继承自 Diffusion-NFT 的思想。
给定当前策略预测
其中
直觉:
由于仿射结构(Eq. 3),两个镜像速度诱导两个高斯均值
3.3 逐步对比排序目标(Step-wise Contrastive Objective)
给定采样的 solver 转移
含义:
- 成功 episode(
):希望 ,即正向分支比反向分支更好地解释观测转移 → 更新方向正确 - 失败 episode(
):希望 ,即正向分支对观测转移解释更差 → 应该反转更新方向
与似然比的关系(Lemma 4.2):由于两个分支共享协方差
所以最小化
3.4 理论保证:梯度方向与 Oracle 对齐
Theorem 4.4 是论文最核心的理论结果,包含三个层次:
(a) 误差差的闭式表达:
其中
用大白话说:误差差完全由残差
(b) 梯度形式:
梯度方向由残差
(c) 小步对齐:在二元成功信号下且更新较小时,条件期望梯度方向与 oracle 均值差
3.5 与 Diffusion-NFT(Weighted-MSE)的对比
Diffusion-NFT 使用 reward-weighted MSE 目标:
Theorem 4.5 揭示了这个目标的分解:
对比 π-StepNFT 的核心项(Eq. 9):
这个惩罚项的问题:
- 它与标签
无关,无条件地抑制分支分离 - 即使数据强烈指示应该做一个大的修正步(
和 高度对齐),惩罚项也会压制更新幅度 - 在二元奖励下,wMSE 退化为只拟合一个分支(
时只拟合 ),无法同时利用正负信号
π-StepNFT 的 Push-Pull 动力学:对比排序损失同时"拉近"正分支、"推远"负分支,产生更强的分离梯度和更快的收敛。这是与 wMSE 的本质区别。
3.6 完整训练流程
- 初始化
,清空缓冲区 - 数据收集:用
做 SDE rollout,对每个环境步随机采样一个 solver 转移,记录 和 episode 终端奖励 - 优化:对缓冲区中的 mini-batch 计算:
- 当前策略预测
- 更新方向
- 镜像分支
- 均值和方差
- 步误差
- 总损失
- 梯度下降更新
- EMA 更新 rollout 策略:
- 清空缓冲区,回到步骤 2
关键设计细节:
- 冻结 VLM backbone,只微调 action expert(约 300M 参数)
- 信任域正则
防止偏离 rollout 策略太远 - EMA 衰减率从 0.1 动态增长到 0.995,平衡早期加速与后期稳定
四、实验结果
4.1 实验设置
模型:π₀ 和 π₀.₅(PaliGemma-3B backbone + ~300M flow-matching action expert)
基准:
- LIBERO:4 个任务套件(Spatial、Object、Goal、Long),每套件 10 个子任务 × 50 个初始状态 = 500 episodes。Few-shot SFT 初始化(π₀ 用 58-208 条轨迹,π₀.₅ 用 40 条)
- ManiSkill:PutOnPlateInScene,4352 个组合任务(16 物体 × 17 容器 × 16 场景),测试 IND 和 OOD 泛化
硬件:主实验 8× H100 80GB,消融实验 8× RTX 4090 48GB
4.2 LIBERO:Few-shot SFT 后的潜力释放
| 模型 | Spatial | Object | Goal | Long | Avg. | Δ Avg. |
|---|---|---|---|---|---|---|
| π₀ SFT | 65.3 | 64.4 | 49.8 | 51.2 | 57.6 | — |
| πRL (PPO) | 98.4 | 99.4 | 96.2 | 90.2 | 96.0 | +38.4 |
| πRL (GRPO) | 97.8 | 97.8 | 83.2 | 81.4 | 90.0 | +32.4 |
| π-StepNFT | 93.5 | 98.0 | 83.7 | 86.7 | 90.5 | +32.9 |
| π₀.₅ SFT | 84.6 | 95.4 | 84.6 | 43.9 | 77.1 | — |
| πRL (PPO) | 99.6 | 100 | 98.8 | 93.0 | 97.9 | +20.8 |
| πRL (GRPO) | 97.4 | 99.8 | 91.2 | 77.6 | 91.5 | +14.4 |
| π-StepNFT | 97.8 | 100 | 98.2 | 79.8 | 94.0 | +16.9 |
关键观察:
- π-StepNFT 在无 Critic、无似然的条件下,达到了与 PPO 可比的性能
- 在短时域任务(Object)上与 PPO 打平,说明逐步监督在局部修正能力上非常有效
- 比同为无 Critic 的 GRPO 在 Long 任务上显著更好(π₀: 86.7% vs 81.4%),说明逐步监督提供了比 GRPO 更精细的信用分配
- PPO 在 Long 任务上仍有优势,因为 Critic 提供了时间信用分配
4.3 ManiSkill:无 Critic 的 OOD 泛化优势
| 模型 | IND | Vision (OOD) | Semantic (OOD) | Execution (OOD) | OOD Avg. |
|---|---|---|---|---|---|
| π₀ Full SFT | 38.4 | 32.6 | 8.4 | 13.2 | 18.1 |
| πRL (PPO) | 78.8 | 61.1 | 25.4 | 31.5 | 39.3 |
| π-StepNFT | 79.2 | 69.1 | 49.1 | 33.1 | 50.4 |
| π₀.₅ Full SFT | 40.1 | 40.2 | 16.6 | 22.4 | 26.4 |
| πRL (PPO) | 90.9 | 68.0 | 34.5 | 45.4 | 49.3 |
| π-StepNFT | 85.4 | 76.9 | 56.6 | 45.1 | 59.5 |
核心发现:
- IND 性能与 PPO 相当,但 OOD 全面领先
- π₀ 上 OOD 平均 50.4% vs PPO 的 39.3%(+11.1%)
- Semantic OOD(未见物体/指令)上差距最大:49.1% vs 25.4%,几乎翻倍
- 原因分析:PPO 的 Critic 从视觉-语言嵌入估计价值,容易过拟合到训练分布中的视觉纹理和特定语言表述。π-StepNFT 完全依赖真实环境反馈(二元成功信号),避免了 Critic 引入的多模态过拟合
4.4 消融实验
4.4.1 SDE vs ODE 探索
| 采样策略 | 效果 |
|---|---|
| 确定性 ODE | 早期就平台期,受限于窄 manifold |
| SDE 无均值修正 | 探索更宽但学习信号未对齐 |
| SDE + 均值修正 | 显著提升,噪声感知的学习信号是关键 |
结论:有效探索不仅需要遍历更宽的空间,还需要学习信号能数学上将噪声转移对齐回策略的向量场。
4.4.2 逐步监督 vs 终端监督
| 监督目标 | 稳定性 | 收敛速度 |
|---|---|---|
| 不稳定,需保守同步 | 慢 | |
| 略好但仍不稳定 | 慢 | |
| 稳定,激进更新下也不崩溃 | 快 |
结论:精确的局部监督是抵消 SDE 探索引入的分布偏移的关键。终端监督的梯度太粗糙,无法维持 manifold 上的有效学习。
4.4.3 对比排序 vs wMSE
- wMSE 在二元奖励下退化为单分支拟合,无法利用正负信号
- 对比排序同时利用 Positive 和 Negative 分支,产生 push-pull 动力学
- 单独用 Positive 或 Negative 分支都有部分提升,结合两者效果最好
4.4.4 无需 Critic
- 二元轨迹级奖励 vs 归一化 GRPO 优势 vs 归一化 GAE 优势
- 二元信号产生更平滑的训练动态,因为利用的是准确的环境 ground-truth
- 有界的成功概率
绕过了无界优势分数需要的复杂归一化和裁剪
4.4.5 超参数敏感性
- 噪声水平
:0.2 最优。太大阻碍收敛(搜索空间过大),太小限制探索 - 信任域
: 最优。太大违反局部线性假设,太小梯度不稳 - EMA 衰减
:动态策略(0.1 → 0.995)最优。常数或过高/过低衰减都不好
五、局限性与未来方向
- 长时域任务的信用分配:π-StepNFT 使用 episode 级别的二元奖励,在 Long-horizon 任务上不如 PPO 的 Critic 提供的时间信用分配。论文指出可以无缝替换为离线学习的逐步成功概率预测器
- 探索效率:SDE 注入均匀噪声,未考虑任务结构,可能在高维动作空间中探索效率较低
- 真实世界验证:实验全部在仿真中完成,真实机器人上的效果有待验证
- 与 Critic 方法的结合:论文定位为 Critic-free 方案,但在 IND 场景下 PPO 仍有优势,两者的互补可能是有价值的方向
六、个人思考
6.1 与项目中已有论文的联系
与 Diffusion-NFT 的关系:π-StepNFT 本质上是将 Diffusion-NFT 的镜像构造从图像生成迁移到具身控制,但做了三个关键改进:ODE→SDE、终端→逐步、wMSE→排序。论文的贡献更多是发现并解决领域迁移中的关键差距,而非提出全新框架。
与 πRL 的关系:πRL 同样将 ODE 转为 SDE 来近似似然,但仍依赖 PPO + Critic。π-StepNFT 走了一条更极端的路——完全绕过似然和 Critic。ManiSkill OOD 结果表明,在需要泛化的场景下,去掉 Critic 反而是优势。
与 GRPO 系列(SimpleVLA-RL、TGRPO)的对比:这些方法也是无 Critic 的,但它们在 episode 级别用组相对优势做信用分配,而 π-StepNFT 的逐步监督提供了更细粒度的信号。Long 任务上的优势验证了这一点。
与 FPO++ 的对比:FPO++ 用 CFM 损失差值来近似似然比,属于"近似似然"路线;π-StepNFT 用镜像构造完全绕过似然,属于"无似然"路线。两者代表了 flow policy RL 的两条技术路线。
6.2 方法论洞察
论文最有价值的 insight 是**"探索宽度与监督粒度必须匹配"**这一原则。这不仅适用于 flow-based VLA,可能是一个更普遍的 RL 设计原则——任何扩大探索范围的策略(如更高的温度、更多的噪声注入)都需要配套更精细的监督信号。
6.3 实用性评估
π-StepNFT 的实用优势明显:
- 单次前向传播/优化步(vs PPO 需要 Critic 前向+反向)
- 无需训练和维护 value network
- 在 OOD 场景下泛化更好
但也有明显局限:
- 二元奖励在长时域任务上的信用分配不如 Critic
- IND 性能被 PPO 压制
- 需要仔细调节
、 、 三个超参数
参考
- Diffusion-NFT(Zheng et al., 2025):提出镜像构造和无似然优化的原始框架,π-StepNFT 的直接基础
- πRL(Chen et al., 2025):Flow-SDE 采样 + PPO 的在线 RL 方案,π-StepNFT 使用其 SFT checkpoint 初始化
- π₀ / π₀.₅(Black et al., 2026/2025):实验使用的基础 VLA 模型
- Diffusion-DPO(Wallace et al., 2024):扩散模型的偏好优化,对比排序思想的来源之一
- RL4VLA(Liu et al., 2026):ManiSkill 基准设置的来源
- RLinf(Yu et al., 2025):π-StepNFT 的实现基于此 RL 训练框架