πRL:Flow-based VLA 的在线 RL 微调框架
论文:πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
作者:Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Xiang Li, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
机构:清华大学、北京大学、中科院自动化所、CMU、Infinigence AI、中关村学院
发布时间:2025 年 11 月(arXiv 2510.25889v2)
发表状态:未录用
分类标签:
Flow-based VLA在线 RLPPOFlow Matchinglog-likelihood 估计ODE-SDE 转换π₀π₀.₅
一句话总结
解决了 flow-based VLA(π₀/π₀.₅)因迭代去噪导致动作 log-likelihood 不可计算而无法直接使用策略梯度的根本难题,提出 Flow-Noise(可学习噪声 + 单层 MDP 联合似然)和 Flow-SDE(ODE→SDE 转换 + 两层 MDP + 混合采样加速)两条技术路线,用 PPO 在线微调 few-shot SFT 的 π₀/π₀.₅,LIBERO 上 57.6→97.6%/77.1→98.3%,ManiSkill 4352 任务组合上 38.4→78.8%。
一、问题与动机
1.1 Flow-based VLA 的 RL 困境
现有 VLA+RL 工作(SimpleVLA-RL、VLA-RL、RL4VLA 等)都针对自回归 VLA(OpenVLA、OpenVLA-OFT)——自回归模型可通过 softmax logits 或高斯预测头直接获取
但 flow-based VLA(π₀、π₀.₅)通过迭代流匹配去噪生成动作:从高斯噪声
| 障碍 | 原因 |
|---|---|
| log-likelihood 不可计算 | Hutchinson 迹估计在少步去噪下不准确,直接计算 |
| 确定性 ODE 无法探索 | 标准 flow matching 推理是确定性的(给定同一噪声→同一动作),缺乏 RL 所需的随机策略探索 |
1.2 现有 flow+RL 工作的局限
Flow-GRPO、ReinFlow、FPO 等工作主要聚焦于图像生成或小规模单任务机器人,尚无面向大规模多任务 flow-based VLA(如 π₀/π₀.₅)的在线 RL 框架。
二、预备知识
2.1 问题建模
标准 MDP
策略梯度需要
2.2 Flow Matching VLA 回顾
π₀/π₀.₅ 的动作生成基于条件流匹配(CFM)。给定观测
CFM 训练损失:
其中插值路径
推理时从
三、核心方法
3.1 Flow-Noise:可学习噪声 + 单层 MDP
3.1.1 随机性注入
在去噪过程中引入可学习噪声网络
噪声网络以动作
3.1.2 log-likelihood 估计
关键思想:用整条去噪序列的联合 log-likelihood 替代最终动作的似然。将去噪过程离散化为
由于每步转移是高斯分布,每个因子
用大白话说:Flow-Noise 不去计算最终动作
3.2 Flow-SDE:ODE→SDE + 两层 MDP
3.2.1 随机性注入
将确定性 ODE 转换为等价 SDE(保持边际分布不变):
其中噪声调度
核心区别:Flow-Noise 的噪声是可学习的(训练后丢弃),Flow-SDE 的噪声是固定的(由 ODE-SDE 转换理论确定)。
3.2.2 两层 MDP
将去噪过程作为内层 MDP 嵌入环境交互的外层 MDP:
- 状态:
——观测 + 当前去噪阶段的动作状态 - 动作:
( )或 ( ,与环境交互) - 转移:
时在内层去噪状态间转移( 不变); 时执行动作,获取新观测 - 奖励:仅在
(去噪完成并与环境交互)时给出环境奖励
这样
3.2.3 混合 ODE-SDE 采样加速
两层 MDP 的有效轨迹长度 = 环境步数 × 去噪步数,MDP 链过长导致训练困难。借鉴 Mix-GRPO 的思路:每次去噪过程中随机选 1 步作为 SDE 转移(有噪声),其余步保持确定性 ODE。确定性步视为环境包装器,不参与策略更新,有效将 MDP 链缩短为环境步数。
3.3 策略优化
两条路线最终都接入 PPO:
π 系列模型采用 action chunk 方式生成
3.4 Critic 设计
根据 π₀ 和 π₀.₅ 的架构差异,Critic 放置位置不同:
| 模型 | 状态输入位置 | Critic 方案 |
|---|---|---|
| π₀ | 本体感受态送入 Action Expert | |
| π₀.₅ | 状态融入 VLM prompt embeddings |
消融显示
四、实验结果
4.1 LIBERO(Few-shot SFT + RL)
| 模型 | 方法 | Spatial | Object | Goal | Long | 平均 | |
|---|---|---|---|---|---|---|---|
| π₀ | Full SFT | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 | — |
| π₀ | Few-shot SFT | 65.3 | 64.4 | 49.8 | 51.2 | 57.6 | — |
| π₀ | + Flow-SDE | 98.4 | 99.4 | 96.2 | 90.2 | 96.1 | +38.5 |
| π₀ | + Flow-Noise | 99.0 | 99.2 | 98.2 | 93.8 | 97.6 | +40.0 |
| π₀.₅ | Full SFT | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 | — |
| π₀.₅ | Few-shot SFT | 84.6 | 95.4 | 84.6 | 43.9 | 77.1 | — |
| π₀.₅ | + Flow-SDE | 99.6 | 100 | 98.8 | 93.0 | 97.9 | +20.8 |
| π₀.₅ | + Flow-Noise | 99.6 | 100 | 99.6 | 94.0 | 98.3 | +21.2 |
关键发现:π₀.₅ 仅用 1 条轨迹 SFT + RL 就达到 98.3%,超越全量 SFT 的 96.9%。LIBERO-Long 从 43.9%→94.0%(+50.1%)。
4.2 ManiSkill
SIMPLER 基准(WidowX)
| 模型 | Carrot | Eggplant | Spoon | Cube | 平均 |
|---|---|---|---|---|---|
| π₀ SFT | 82.7 | 87.5 | 61.7 | 37.1 | 67.2 |
| π₀ + Flow-Noise | 95.7 | 96.7 | 91.6 | 63.0 | 86.7 |
| π₀.₅ SFT | 70.6 | 91.9 | 43.5 | 31.0 | 59.2 |
| π₀.₅ + Flow-Noise | 82.0 | 98.2 | 82.8 | 53.3 | 79.1 |
泛化测试(4352 任务组合)
320 并行环境训练,16 类物体 × 17 种容器 × 16 个场景。
| 模型 | IND | Vision | Semantic | Execution | OOD Avg. |
|---|---|---|---|---|---|
| π₀ SFT | 38.4 | 32.6 | 8.4 | 13.2 | 18.1 |
| π₀ + Flow-SDE | 78.8 | 61.1 | 25.4 | 31.5 | 39.3 |
| π₀.₅ SFT | 40.1 | 40.2 | 16.6 | 22.4 | 26.4 |
| π₀.₅ + Flow-Noise | 89.7 | 69.9 | 35.5 | 54.9 | 53.4 |
4.3 MetaWorld MT50
50 类操作任务,按难度分为四级。
| 方法 | Easy | Medium | Hard | Very Hard | 平均 |
|---|---|---|---|---|---|
| SmolVLA | 87.1 | 51.8 | 70.0 | 64.0 | 68.2 |
| π₀ SFT | 77.9 | 51.8 | 53.3 | 20.0 | 50.8 |
| π₀ + Flow-Noise | 91.1 | 81.8 | 78.3 | 92.0 | 85.8 |
| π₀.₅ SFT | 68.2 | 37.3 | 41.7 | 28.0 | 43.8 |
| π₀.₅ + Flow-SDE | 86.4 | 55.5 | 75.0 | 66.0 | 70.7 |
4.4 消融实验
PPO vs GRPO
| 模型 | 算法 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|---|
| π₀ | +GRPO | 97.8 | 97.8 | 83.2 | 81.4 | 90.0 |
| π₀ | +PPO | 98.4 | 99.4 | 96.2 | 90.2 | 96.0 |
| π₀.₅ | +GRPO | 97.4 | 99.8 | 91.2 | 77.6 | 91.5 |
| π₀.₅ | +PPO | 99.6 | 100 | 98.8 | 93.0 | 97.9 |
PPO 在所有任务套件上一致优于 GRPO,差距在 Long 任务上尤为明显(π₀: 90.2 vs 81.4)。
超参数权衡
| 维度 | 观察 |
|---|---|
| 噪声水平 | 过低(0.2)→ 梯度大、clip fraction 高、训练不稳;过高(0.8)→ rollout 性能差、ODE-SDE 偏差大 |
| 去噪步数 | |
| 动作块大小 | 大 |
核心教训:为 rollout 性能优化的超参数可能导致训练不稳,需仔细平衡。
五、局限性
- OOD 泛化有限:RL 在分布内大幅提升,但 ManiSkill 语义/执行 OOD 场景提升有限;冻结 VLM(为效率)进一步限制视觉泛化
- 仅在仿真评测:LIBERO、ManiSkill、MetaWorld 均为仿真,未验证真实世界迁移
- ODE→SDE 精度损失:转换过程存在数值误差,导致 rollout 性能下降;Flow-CPS 提出了系数保持采样但 RL 改善有限
- 混合 ODE-SDE 策略简单:当前仅随机选 1 步为 SDE,更精细的调度可能进一步加速
六、个人思考
6.1 与 FPO++/SAC Flow 的技术路线对比
三者都解决 "flow policy + RL" 的 log-likelihood 难题,但路线截然不同:
| 维度 | πRL Flow-Noise | πRL Flow-SDE | FPO++ | SAC Flow |
|---|---|---|---|---|
| 似然估计 | 可学习噪声链联合概率 | ODE→SDE 高斯转移 | CFM 损失差值代理 | 重参数化 + off-policy |
| MDP 层次 | 单层(环境级) | 两层(去噪+环境) | 单层 | 单层 |
| RL 算法 | PPO(on-policy) | PPO(on-policy) | PPO | SAC(off-policy) |
| 探索机制 | 噪声网络(训练后丢弃) | SDE 噪声(推理时为 ODE) | 标准 action noise | SDE 固有随机性 |
| 规模 | 多任务多基准 | 多任务多基准 | 仿真+真实世界 | 单任务连续控制 |
πRL 的最大贡献是工程可扩展性:基于 RLinf 框架实现大规模并行 RL(320 并行环境),并在三个不同基准上验证了对两种 flow VLA(π₀/π₀.₅)和 GR00T N1.5 的通用性。
6.2 PPO > GRPO 的原因
这与 RL4VLA(Liu et al., 2025)的结论一致。Critic 提供了逐步优势估计(GAE),而 GRPO 只用轨迹级奖励归一化作为优势。在操作任务中,稀疏二元奖励 + 长时域使得 GRPO 的优势方差很大,而 PPO 的 Critic 可以通过 TD-error 传播更精细的信用分配信号。
6.3 Flow-Noise vs Flow-SDE 的取舍
| 维度 | Flow-Noise | Flow-SDE |
|---|---|---|
| 性能 | 略高(1-2%) | 略低 |
| 收敛速度 | 更快(单层 MDP,高数据利用率) | 较慢 |
| 每步更新时间 | 随去噪步数线性增长(需重算整条链) | 恒定(混合 ODE-SDE 只算 1 步) |
| 额外参数 | 噪声网络(训练后丢弃) | 无 |
| 理论基础 | ReinFlow(联合似然代替边际似然) | Score-based SDE(保持边际不变) |
实践中的选择取决于去噪步数:步数少时 Flow-Noise 的重计算开销可接受;步数多时 Flow-SDE 更高效。
6.4 冻结 VLM 的影响
论文在 RL 阶段冻结 VLM 仅微调 300M Action Expert(π₀)或等效部分。LoRA 消融显示在 LIBERO 上微调 VLM 收益有限——因为 LIBERO 场景变化小,预训练 VLM 已足够。但 ManiSkill OOD 实验中视觉泛化不佳,可能正是因为冻结了视觉表征。这是所有 VLA+RL 工作的共同瓶颈:训练效率 vs. 视觉适应性。
6.5 与 RLinf-VLA 系统的关系
πRL 构建在同一团队的 RLinf 框架上(RLinf-VLA 专注于自回归 VLA 的 PPO/GRPO,这里扩展到 flow-based VLA)。RLinf 的共置 GPU 分配策略(环境、rollout、actor 在同一 GPU 串行执行)是实现 320 并行环境训练的关键基础设施。πRL 的贡献更多在算法层面(两种 log-likelihood 估计),而不是系统层面。
参考
- π₀(Black et al., 2024,arXiv 2410.24164):Flow Matching VLA,πRL 的主要微调对象
- π₀.₅(Physical Intelligence, 2025,arXiv 2504.16054):开放世界泛化 VLA,πRL 的另一微调对象
- ReinFlow(Zhang et al., 2025,arXiv 2505.22094):Flow-Noise 的理论基础——可学习噪声 + 联合似然
- Flow-GRPO(Liu et al., 2025,arXiv 2505.05470):Flow-SDE 的理论基础——ODE→SDE 转换
- DPPO(Ren et al., 2024,arXiv 2409.00588):Diffusion Policy 的 PPO 框架,两层 MDP 的设计参考
- RLinf-VLA(Zang et al., 2025,arXiv 2510.06710):πRL 的基础系统框架
- RL4VLA(Liu et al., 2025,arXiv 2505.19789):PPO vs GRPO 实证比较,ManiSkill 泛化测试设置来源
- SimpleVLA-RL(Li et al., 2025,arXiv 2509.09674):GRPO + OpenVLA-OFT 的先驱工作
- GR00T N1.5(Bjorck et al., 2025,arXiv 2503.14734):附录验证了 πRL 对其他 flow VLA 的通用性