Skip to content

πRL:Flow-based VLA 的在线 RL 微调框架

论文πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

作者:Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Xiang Li, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu

机构:清华大学、北京大学、中科院自动化所、CMU、Infinigence AI、中关村学院

发布时间:2025 年 11 月(arXiv 2510.25889v2)

🔗 arXiv | GitHub | Models

发表状态:未录用

分类标签Flow-based VLA 在线 RL PPO Flow Matching log-likelihood 估计 ODE-SDE 转换 π₀ π₀.₅


一句话总结

解决了 flow-based VLA(π₀/π₀.₅)因迭代去噪导致动作 log-likelihood 不可计算而无法直接使用策略梯度的根本难题,提出 Flow-Noise(可学习噪声 + 单层 MDP 联合似然)和 Flow-SDE(ODE→SDE 转换 + 两层 MDP + 混合采样加速)两条技术路线,用 PPO 在线微调 few-shot SFT 的 π₀/π₀.₅,LIBERO 上 57.6→97.6%/77.1→98.3%,ManiSkill 4352 任务组合上 38.4→78.8%。


一、问题与动机

1.1 Flow-based VLA 的 RL 困境

现有 VLA+RL 工作(SimpleVLA-RL、VLA-RL、RL4VLA 等)都针对自回归 VLA(OpenVLA、OpenVLA-OFT)——自回归模型可通过 softmax logits 或高斯预测头直接获取 logπθ(at|st)

但 flow-based VLA(π₀、π₀.₅)通过迭代流匹配去噪生成动作:从高斯噪声 A0N(0,I) 出发,沿学习的速度场 vθ 积分 K 步得到最终动作 A1。这个过程有两个根本障碍:

障碍原因
log-likelihood 不可计算Hutchinson 迹估计在少步去噪下不准确,直接计算 logπ(A1o) 需要求解连续正规化流的雅可比行列式
确定性 ODE 无法探索标准 flow matching 推理是确定性的(给定同一噪声→同一动作),缺乏 RL 所需的随机策略探索

1.2 现有 flow+RL 工作的局限

Flow-GRPO、ReinFlow、FPO 等工作主要聚焦于图像生成或小规模单任务机器人,尚无面向大规模多任务 flow-based VLA(如 π₀/π₀.₅)的在线 RL 框架。


二、预备知识

2.1 问题建模

标准 MDP M=(S,A,P0,PENV,RENV,γ),策略目标:

J(πθ)=Eπθ,P0[t=0TγtRENV(st,at)]

策略梯度需要 θlogπθ(at|st)——这正是 flow-based VLA 难以提供的。

2.2 Flow Matching VLA 回顾

π₀/π₀.₅ 的动作生成基于条件流匹配(CFM)。给定观测 ot,模型学习速度场 vθ 将高斯噪声映射到目标动作块 At=[at,0,,at,H1]

CFM 训练损失:

LCFM=Eτ,p(At,ot),q(Atτ|At)[vθ(Atτ,ot)u(Atτ|At)22]

其中插值路径 Atτ=τAt+(1τ)ϵ,真实速度场 u(Atτ|At)=Atϵ

推理时从 A0N(0,I) 出发,用前向欧拉法迭代 K 步:

Aτ+δ=Aτ+vθ(Aτ,ot)δ,δ=1/K

三、核心方法

3.1 Flow-Noise:可学习噪声 + 单层 MDP

3.1.1 随机性注入

在去噪过程中引入可学习噪声网络 σθ(),将每步转移建模为各向同性高斯分布:

p(Aτ+δ|Aτ)N(μτ,Στ){μτ=Aτ+vτδΣτ=diag(σθ2)

噪声网络以动作 Aτ 和观测 o 为条件,训练时与速度场联合优化,推理时丢弃(恢复确定性策略)。

3.1.2 log-likelihood 估计

关键思想:用整条去噪序列的联合 log-likelihood 替代最终动作的似然。将去噪过程离散化为 K{τ0,τ1,,τK},序列 A=(A0,,A1) 的联合概率为:

logπ(A|o)=log(π(A0|o)k=0K1π(Aτk+1|Aτk,o))

由于每步转移是高斯分布,每个因子 π(Aτk+1|Aτk,o) 可解析计算。ReinFlow 已证明用联合似然梯度替代最终动作似然梯度在理论上成立。

用大白话说:Flow-Noise 不去计算最终动作 A1 本身的概率密度(这很难),而是把整条 "从噪声到动作" 的去噪轨迹当成一个高斯链,计算链上每一步的转移概率并相乘。因为加了可学习噪声,每步都是高斯分布,概率就能精确算出来。

3.2 Flow-SDE:ODE→SDE + 两层 MDP

3.2.1 随机性注入

将确定性 ODE 转换为等价 SDE(保持边际分布不变):

dAτ=[vτ+στ22τ(Aτ+(1τ)vτ)]dτ+στdwτ

其中噪声调度 στ=aτ1τa 控制噪声水平。离散化后每步转移仍为高斯:

{μτ=Aτ+[vτ+στ22τ(Aτ+(1τ)vτ)]δΣτ=στ2δI

核心区别:Flow-Noise 的噪声是可学习的(训练后丢弃),Flow-SDE 的噪声是固定的(由 ODE-SDE 转换理论确定)。

3.2.2 两层 MDP

将去噪过程作为内层 MDP 嵌入环境交互的外层 MDP

  • 状态s¯tτ=(ot,Atτ)——观测 + 当前去噪阶段的动作状态
  • 动作a¯tτ=Atτ+δτ<1)或 At1τ=1,与环境交互)
  • 转移τ<1 时在内层去噪状态间转移(ot 不变);τ=1 时执行动作,获取新观测 ot+1
  • 奖励:仅在 τ=1(去噪完成并与环境交互)时给出环境奖励
R¯(s¯tτ,a¯tτ)={0if τ<1RENV(ot,At1)if τ=1

这样 logπ(a¯tτ|s¯tτ) 就是高斯转移概率,直接可计算。

3.2.3 混合 ODE-SDE 采样加速

两层 MDP 的有效轨迹长度 = 环境步数 × 去噪步数,MDP 链过长导致训练困难。借鉴 Mix-GRPO 的思路:每次去噪过程中随机选 1 步作为 SDE 转移(有噪声),其余步保持确定性 ODE。确定性步视为环境包装器,不参与策略更新,有效将 MDP 链缩短为环境步数。

3.3 策略优化

两条路线最终都接入 PPO

J(πθ)=Et[min(ρt(θ)A^t,clip(ρt(θ),1ϵ,1+ϵ)A^t)]

π 系列模型采用 action chunk 方式生成 H 步动作,将整个 chunk 作为一个宏步,奖励为各步奖励之和 Rt=j=0H1rt,j

3.4 Critic 设计

根据 π₀ 和 π₀.₅ 的架构差异,Critic 放置位置不同:

模型状态输入位置Critic 方案
π₀本体感受态送入 Action ExpertVexpert(ot)EτU[0,1][Vexpert(ot,Atτ)](跨去噪轨迹平均)
π₀.₅状态融入 VLM prompt embeddingsVvlm(ot)(直接接在 VLM 输出后)

消融显示 Vvlm 略优于 Vexpert,因为前者直接映射观测→价值,后者受噪声动作输入干扰。


四、实验结果

4.1 LIBERO(Few-shot SFT + RL)

模型方法SpatialObjectGoalLong平均Δ
π₀Full SFT96.898.895.885.294.2
π₀Few-shot SFT65.364.449.851.257.6
π₀+ Flow-SDE98.499.496.290.296.1+38.5
π₀+ Flow-Noise99.099.298.293.897.6+40.0
π₀.₅Full SFT98.898.298.092.496.9
π₀.₅Few-shot SFT84.695.484.643.977.1
π₀.₅+ Flow-SDE99.610098.893.097.9+20.8
π₀.₅+ Flow-Noise99.610099.694.098.3+21.2

关键发现:π₀.₅ 仅用 1 条轨迹 SFT + RL 就达到 98.3%,超越全量 SFT 的 96.9%。LIBERO-Long 从 43.9%→94.0%(+50.1%)。

4.2 ManiSkill

SIMPLER 基准(WidowX)

模型CarrotEggplantSpoonCube平均
π₀ SFT82.787.561.737.167.2
π₀ + Flow-Noise95.796.791.663.086.7
π₀.₅ SFT70.691.943.531.059.2
π₀.₅ + Flow-Noise82.098.282.853.379.1

泛化测试(4352 任务组合)

320 并行环境训练,16 类物体 × 17 种容器 × 16 个场景。

模型INDVisionSemanticExecutionOOD Avg.
π₀ SFT38.432.68.413.218.1
π₀ + Flow-SDE78.861.125.431.539.3
π₀.₅ SFT40.140.216.622.426.4
π₀.₅ + Flow-Noise89.769.935.554.953.4

4.3 MetaWorld MT50

50 类操作任务,按难度分为四级。

方法EasyMediumHardVery Hard平均
SmolVLA87.151.870.064.068.2
π₀ SFT77.951.853.320.050.8
π₀ + Flow-Noise91.181.878.392.085.8
π₀.₅ SFT68.237.341.728.043.8
π₀.₅ + Flow-SDE86.455.575.066.070.7

4.4 消融实验

PPO vs GRPO

模型算法SpatialObjectGoalLong平均
π₀+GRPO97.897.883.281.490.0
π₀+PPO98.499.496.290.296.0
π₀.₅+GRPO97.499.891.277.691.5
π₀.₅+PPO99.610098.893.097.9

PPO 在所有任务套件上一致优于 GRPO,差距在 Long 任务上尤为明显(π₀: 90.2 vs 81.4)。

超参数权衡

维度观察
噪声水平 a过低(0.2)→ 梯度大、clip fraction 高、训练不稳;过高(0.8)→ rollout 性能差、ODE-SDE 偏差大
去噪步数 KK=1 离散化误差大;K=8 增加训练难度;K=4 为平衡点
动作块大小 HH 利于长时域但损害优势估计准确性(explained variance 下降)

核心教训:为 rollout 性能优化的超参数可能导致训练不稳,需仔细平衡。


五、局限性

  1. OOD 泛化有限:RL 在分布内大幅提升,但 ManiSkill 语义/执行 OOD 场景提升有限;冻结 VLM(为效率)进一步限制视觉泛化
  2. 仅在仿真评测:LIBERO、ManiSkill、MetaWorld 均为仿真,未验证真实世界迁移
  3. ODE→SDE 精度损失:转换过程存在数值误差,导致 rollout 性能下降;Flow-CPS 提出了系数保持采样但 RL 改善有限
  4. 混合 ODE-SDE 策略简单:当前仅随机选 1 步为 SDE,更精细的调度可能进一步加速

六、个人思考

6.1 与 FPO++/SAC Flow 的技术路线对比

三者都解决 "flow policy + RL" 的 log-likelihood 难题,但路线截然不同:

维度πRL Flow-NoiseπRL Flow-SDEFPO++SAC Flow
似然估计可学习噪声链联合概率ODE→SDE 高斯转移CFM 损失差值代理重参数化 + off-policy
MDP 层次单层(环境级)两层(去噪+环境)单层单层
RL 算法PPO(on-policy)PPO(on-policy)PPOSAC(off-policy)
探索机制噪声网络(训练后丢弃)SDE 噪声(推理时为 ODE)标准 action noiseSDE 固有随机性
规模多任务多基准多任务多基准仿真+真实世界单任务连续控制

πRL 的最大贡献是工程可扩展性:基于 RLinf 框架实现大规模并行 RL(320 并行环境),并在三个不同基准上验证了对两种 flow VLA(π₀/π₀.₅)和 GR00T N1.5 的通用性。

6.2 PPO > GRPO 的原因

这与 RL4VLA(Liu et al., 2025)的结论一致。Critic 提供了逐步优势估计(GAE),而 GRPO 只用轨迹级奖励归一化作为优势。在操作任务中,稀疏二元奖励 + 长时域使得 GRPO 的优势方差很大,而 PPO 的 Critic 可以通过 TD-error 传播更精细的信用分配信号。

6.3 Flow-Noise vs Flow-SDE 的取舍

维度Flow-NoiseFlow-SDE
性能略高(1-2%)略低
收敛速度更快(单层 MDP,高数据利用率)较慢
每步更新时间随去噪步数线性增长(需重算整条链)恒定(混合 ODE-SDE 只算 1 步)
额外参数噪声网络(训练后丢弃)
理论基础ReinFlow(联合似然代替边际似然)Score-based SDE(保持边际不变)

实践中的选择取决于去噪步数:步数少时 Flow-Noise 的重计算开销可接受;步数多时 Flow-SDE 更高效。

6.4 冻结 VLM 的影响

论文在 RL 阶段冻结 VLM 仅微调 300M Action Expert(π₀)或等效部分。LoRA 消融显示在 LIBERO 上微调 VLM 收益有限——因为 LIBERO 场景变化小,预训练 VLM 已足够。但 ManiSkill OOD 实验中视觉泛化不佳,可能正是因为冻结了视觉表征。这是所有 VLA+RL 工作的共同瓶颈:训练效率 vs. 视觉适应性。

6.5 与 RLinf-VLA 系统的关系

πRL 构建在同一团队的 RLinf 框架上(RLinf-VLA 专注于自回归 VLA 的 PPO/GRPO,这里扩展到 flow-based VLA)。RLinf 的共置 GPU 分配策略(环境、rollout、actor 在同一 GPU 串行执行)是实现 320 并行环境训练的关键基础设施。πRL 的贡献更多在算法层面(两种 log-likelihood 估计),而不是系统层面。


参考

  • π₀(Black et al., 2024,arXiv 2410.24164):Flow Matching VLA,πRL 的主要微调对象
  • π₀.₅(Physical Intelligence, 2025,arXiv 2504.16054):开放世界泛化 VLA,πRL 的另一微调对象
  • ReinFlow(Zhang et al., 2025,arXiv 2505.22094):Flow-Noise 的理论基础——可学习噪声 + 联合似然
  • Flow-GRPO(Liu et al., 2025,arXiv 2505.05470):Flow-SDE 的理论基础——ODE→SDE 转换
  • DPPO(Ren et al., 2024,arXiv 2409.00588):Diffusion Policy 的 PPO 框架,两层 MDP 的设计参考
  • RLinf-VLA(Zang et al., 2025,arXiv 2510.06710):πRL 的基础系统框架
  • RL4VLA(Liu et al., 2025,arXiv 2505.19789):PPO vs GRPO 实证比较,ManiSkill 泛化测试设置来源
  • SimpleVLA-RL(Li et al., 2025,arXiv 2509.09674):GRPO + OpenVLA-OFT 的先驱工作
  • GR00T N1.5(Bjorck et al., 2025,arXiv 2503.14734):附录验证了 πRL 对其他 flow VLA 的通用性