πRL：Flow-based VLA 的在线 RL 微调框架

论文：πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
作者：Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Xiang Li, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu
机构：清华大学、北京大学、中科院自动化所、CMU、Infinigence AI、中关村学院
发布时间：2025 年 11 月（arXiv 2510.25889v2）
🔗 arXiv | GitHub | Models
发表状态：未录用
分类标签：Flow-based VLA 在线 RL PPO Flow Matching log-likelihood 估计 ODE-SDE 转换 π₀ π₀.₅

一句话总结

解决了 flow-based VLA（π₀/π₀.₅）因迭代去噪导致动作 log-likelihood 不可计算而无法直接使用策略梯度的根本难题，提出 Flow-Noise（可学习噪声 + 单层 MDP 联合似然）和 Flow-SDE（ODE→SDE 转换 + 两层 MDP + 混合采样加速）两条技术路线，用 PPO 在线微调 few-shot SFT 的 π₀/π₀.₅，LIBERO 上 57.6→97.6%/77.1→98.3%，ManiSkill 4352 任务组合上 38.4→78.8%。

一、问题与动机

1.1 Flow-based VLA 的 RL 困境

现有 VLA+RL 工作（SimpleVLA-RL、VLA-RL、RL4VLA 等）都针对自回归 VLA（OpenVLA、OpenVLA-OFT）——自回归模型可通过 softmax logits 或高斯预测头直接获取 $\log π_{θ} (a_{t} | s_{t})$ 。

但 flow-based VLA（π₀、π₀.₅）通过迭代流匹配去噪生成动作：从高斯噪声 $A^{0} \sim N (0, I)$ 出发，沿学习的速度场 $v_{θ}$ 积分 $K$ 步得到最终动作 $A^{1}$ 。这个过程有两个根本障碍：

障碍	原因
log-likelihood 不可计算	Hutchinson 迹估计在少步去噪下不准确，直接计算 $\log π (A^{1} ∣ o)$ 需要求解连续正规化流的雅可比行列式
确定性 ODE 无法探索	标准 flow matching 推理是确定性的（给定同一噪声→同一动作），缺乏 RL 所需的随机策略探索

1.2 现有 flow+RL 工作的局限

Flow-GRPO、ReinFlow、FPO 等工作主要聚焦于图像生成或小规模单任务机器人，尚无面向大规模多任务 flow-based VLA（如 π₀/π₀.₅）的在线 RL 框架。

二、预备知识

2.1 问题建模

标准 MDP $M = (S, A, P_{0}, P_{ENV}, R_{ENV}, γ)$ ，策略目标：

J (π_{θ}) = E_{π_{θ}, P_{0}} [\sum_{t = 0}^{T} γ^{t} R_{ENV} (s_{t}, a_{t})]

策略梯度需要 $\nabla_{θ} \log π_{θ} (a_{t} | s_{t})$ ——这正是 flow-based VLA 难以提供的。

2.2 Flow Matching VLA 回顾

π₀/π₀.₅ 的动作生成基于条件流匹配（CFM）。给定观测 $o_{t}$ ，模型学习速度场 $v_{θ}$ 将高斯噪声映射到目标动作块 $A_{t} = [a_{t, 0}, \dots, a_{t, H - 1}]$ 。

CFM 训练损失：

L_{CFM} = E_{τ, p (A_{t}, o_{t}), q (A_{t}^{τ} | A_{t})} [∥ v_{θ} (A_{t}^{τ}, o_{t}) - u (A_{t}^{τ} | A_{t}) ∥_{2}^{2}]

其中插值路径 $A_{t}^{τ} = τ A_{t} + (1 - τ) ϵ$ ，真实速度场 $u (A_{t}^{τ} | A_{t}) = A_{t} - ϵ$ 。

推理时从 $A^{0} \sim N (0, I)$ 出发，用前向欧拉法迭代 $K$ 步：

A^{τ + δ} = A^{τ} + v_{θ} (A^{τ}, o_{t}) \cdot δ, δ = 1 / K

三、核心方法

3.1 Flow-Noise：可学习噪声 + 单层 MDP

3.1.1 随机性注入

在去噪过程中引入可学习噪声网络 $σ_{θ^{'}} (\cdot)$ ，将每步转移建模为各向同性高斯分布：

p (A^{τ + δ} | A^{τ}) \sim N (μ_{τ}, Σ_{τ})

{\begin{cases} μ_{τ} = A^{τ} + v^{τ} \cdot δ \\ Σ_{τ} = diag (σ_{θ^{'}}^{2}) \end{cases}

噪声网络以动作 $A^{τ}$ 和观测 $o$ 为条件，训练时与速度场联合优化，推理时丢弃（恢复确定性策略）。

3.1.2 log-likelihood 估计

关键思想：用整条去噪序列的联合 log-likelihood 替代最终动作的似然。将去噪过程离散化为 $K$ 步 ${τ_{0}, τ_{1}, \dots, τ_{K}}$ ，序列 $A = (A^{0}, \dots, A^{1})$ 的联合概率为：

\log π (A | o) = \log (π (A^{0} | o) \prod_{k = 0}^{K - 1} π (A^{τ_{k + 1}} | A^{τ_{k}}, o))

由于每步转移是高斯分布，每个因子 $π (A^{τ_{k + 1}} | A^{τ_{k}}, o)$ 可解析计算。ReinFlow 已证明用联合似然梯度替代最终动作似然梯度在理论上成立。

用大白话说：Flow-Noise 不去计算最终动作 $A^{1}$ 本身的概率密度（这很难），而是把整条 "从噪声到动作" 的去噪轨迹当成一个高斯链，计算链上每一步的转移概率并相乘。因为加了可学习噪声，每步都是高斯分布，概率就能精确算出来。

3.2 Flow-SDE：ODE→SDE + 两层 MDP

3.2.1 随机性注入

将确定性 ODE 转换为等价 SDE（保持边际分布不变）：

d A^{τ} = [v^{τ} + \frac{σ_{τ}^{2}}{2 τ} (A^{τ} + (1 - τ) v^{τ})] d τ + σ_{τ} d w_{τ}

其中噪声调度 $σ_{τ} = a \sqrt{\frac{τ}{1 - τ}}$ ， $a$ 控制噪声水平。离散化后每步转移仍为高斯：

{\begin{cases} μ_{τ} = A^{τ} + [v^{τ} + \frac{σ_{τ}^{2}}{2 τ} (A^{τ} + (1 - τ) v^{τ})] \cdot δ \\ Σ_{τ} = σ_{τ}^{2} δ \cdot I \end{cases}

核心区别：Flow-Noise 的噪声是可学习的（训练后丢弃），Flow-SDE 的噪声是固定的（由 ODE-SDE 转换理论确定）。

3.2.2 两层 MDP

将去噪过程作为内层 MDP 嵌入环境交互的外层 MDP：

状态： ${\bar{s}}_{t}^{τ} = (o_{t}, A_{t}^{τ})$ ——观测 + 当前去噪阶段的动作状态
动作： ${\bar{a}}_{t}^{τ} = A_{t}^{τ + δ}$ （ $τ < 1$ ）或 $A_{t}^{1}$ （ $τ = 1$ ，与环境交互）
转移： $τ < 1$ 时在内层去噪状态间转移（ $o_{t}$ 不变）； $τ = 1$ 时执行动作，获取新观测 $o_{t + 1}$
奖励：仅在 $τ = 1$ （去噪完成并与环境交互）时给出环境奖励

\bar{R} ({\bar{s}}_{t}^{τ}, {\bar{a}}_{t}^{τ}) = {\begin{cases} 0 & if τ < 1 \\ R_{ENV} (o_{t}, A_{t}^{1}) & if τ = 1 \end{cases}

这样 $\log π ({\bar{a}}_{t}^{τ} | {\bar{s}}_{t}^{τ})$ 就是高斯转移概率，直接可计算。

3.2.3 混合 ODE-SDE 采样加速

两层 MDP 的有效轨迹长度 = 环境步数 × 去噪步数，MDP 链过长导致训练困难。借鉴 Mix-GRPO 的思路：每次去噪过程中随机选 1 步作为 SDE 转移（有噪声），其余步保持确定性 ODE。确定性步视为环境包装器，不参与策略更新，有效将 MDP 链缩短为环境步数。

3.3 策略优化

两条路线最终都接入 PPO：

J (π_{θ}) = E_{t} [min (ρ_{t} (θ) {\hat{A}}_{t}, clip (ρ_{t} (θ), 1 - ϵ, 1 + ϵ) {\hat{A}}_{t})]

π 系列模型采用 action chunk 方式生成 $H$ 步动作，将整个 chunk 作为一个宏步，奖励为各步奖励之和 $R_{t} = \sum_{j = 0}^{H - 1} r_{t, j}$ 。

3.4 Critic 设计

根据 π₀ 和 π₀.₅ 的架构差异，Critic 放置位置不同：

模型	状态输入位置	Critic 方案
π₀	本体感受态送入 Action Expert	$V_{expert} (o_{t}) \approx E_{τ \sim U [0, 1]} [V_{expert} (o_{t}, A_{t}^{τ})]$ （跨去噪轨迹平均）
π₀.₅	状态融入 VLM prompt embeddings	$V_{vlm} (o_{t})$ （直接接在 VLM 输出后）

消融显示 $V_{vlm}$ 略优于 $V_{expert}$ ，因为前者直接映射观测→价值，后者受噪声动作输入干扰。

四、实验结果

4.1 LIBERO（Few-shot SFT + RL）

模型	方法	Spatial	Object	Goal	Long	平均	$Δ$
π₀	Full SFT	96.8	98.8	95.8	85.2	94.2	—
π₀	Few-shot SFT	65.3	64.4	49.8	51.2	57.6	—
π₀	+ Flow-SDE	98.4	99.4	96.2	90.2	96.1	+38.5
π₀	+ Flow-Noise	99.0	99.2	98.2	93.8	97.6	+40.0
π₀.₅	Full SFT	98.8	98.2	98.0	92.4	96.9	—
π₀.₅	Few-shot SFT	84.6	95.4	84.6	43.9	77.1	—
π₀.₅	+ Flow-SDE	99.6	100	98.8	93.0	97.9	+20.8
π₀.₅	+ Flow-Noise	99.6	100	99.6	94.0	98.3	+21.2

关键发现：π₀.₅ 仅用 1 条轨迹 SFT + RL 就达到 98.3%，超越全量 SFT 的 96.9%。LIBERO-Long 从 43.9%→94.0%（+50.1%）。

4.2 ManiSkill

SIMPLER 基准（WidowX）

模型	Carrot	Eggplant	Spoon	Cube	平均
π₀ SFT	82.7	87.5	61.7	37.1	67.2
π₀ + Flow-Noise	95.7	96.7	91.6	63.0	86.7
π₀.₅ SFT	70.6	91.9	43.5	31.0	59.2
π₀.₅ + Flow-Noise	82.0	98.2	82.8	53.3	79.1

泛化测试（4352 任务组合）

320 并行环境训练，16 类物体 × 17 种容器 × 16 个场景。

模型	IND	Vision	Semantic	Execution	OOD Avg.
π₀ SFT	38.4	32.6	8.4	13.2	18.1
π₀ + Flow-SDE	78.8	61.1	25.4	31.5	39.3
π₀.₅ SFT	40.1	40.2	16.6	22.4	26.4
π₀.₅ + Flow-Noise	89.7	69.9	35.5	54.9	53.4

4.3 MetaWorld MT50

50 类操作任务，按难度分为四级。

方法	Easy	Medium	Hard	Very Hard	平均
SmolVLA	87.1	51.8	70.0	64.0	68.2
π₀ SFT	77.9	51.8	53.3	20.0	50.8
π₀ + Flow-Noise	91.1	81.8	78.3	92.0	85.8
π₀.₅ SFT	68.2	37.3	41.7	28.0	43.8
π₀.₅ + Flow-SDE	86.4	55.5	75.0	66.0	70.7

4.4 消融实验

PPO vs GRPO

模型	算法	Spatial	Object	Goal	Long	平均
π₀	+GRPO	97.8	97.8	83.2	81.4	90.0
π₀	+PPO	98.4	99.4	96.2	90.2	96.0
π₀.₅	+GRPO	97.4	99.8	91.2	77.6	91.5
π₀.₅	+PPO	99.6	100	98.8	93.0	97.9

PPO 在所有任务套件上一致优于 GRPO，差距在 Long 任务上尤为明显（π₀: 90.2 vs 81.4）。

超参数权衡

维度	观察
噪声水平 $a$	过低（0.2）→ 梯度大、clip fraction 高、训练不稳；过高（0.8）→ rollout 性能差、ODE-SDE 偏差大
去噪步数 $K$	$K = 1$ 离散化误差大； $K = 8$ 增加训练难度； $K = 4$ 为平衡点
动作块大小 $H$	大 $H$ 利于长时域但损害优势估计准确性（explained variance 下降）

核心教训：为 rollout 性能优化的超参数可能导致训练不稳，需仔细平衡。

五、局限性

OOD 泛化有限：RL 在分布内大幅提升，但 ManiSkill 语义/执行 OOD 场景提升有限；冻结 VLM（为效率）进一步限制视觉泛化
仅在仿真评测：LIBERO、ManiSkill、MetaWorld 均为仿真，未验证真实世界迁移
ODE→SDE 精度损失：转换过程存在数值误差，导致 rollout 性能下降；Flow-CPS 提出了系数保持采样但 RL 改善有限
混合 ODE-SDE 策略简单：当前仅随机选 1 步为 SDE，更精细的调度可能进一步加速

六、个人思考

6.1 与 FPO++/SAC Flow 的技术路线对比

三者都解决 "flow policy + RL" 的 log-likelihood 难题，但路线截然不同：

维度	πRL Flow-Noise	πRL Flow-SDE	FPO++	SAC Flow
似然估计	可学习噪声链联合概率	ODE→SDE 高斯转移	CFM 损失差值代理	重参数化 + off-policy
MDP 层次	单层（环境级）	两层（去噪+环境）	单层	单层
RL 算法	PPO（on-policy）	PPO（on-policy）	PPO	SAC（off-policy）
探索机制	噪声网络（训练后丢弃）	SDE 噪声（推理时为 ODE）	标准 action noise	SDE 固有随机性
规模	多任务多基准	多任务多基准	仿真+真实世界	单任务连续控制

πRL 的最大贡献是工程可扩展性：基于 RLinf 框架实现大规模并行 RL（320 并行环境），并在三个不同基准上验证了对两种 flow VLA（π₀/π₀.₅）和 GR00T N1.5 的通用性。

6.2 PPO > GRPO 的原因

这与 RL4VLA（Liu et al., 2025）的结论一致。Critic 提供了逐步优势估计（GAE），而 GRPO 只用轨迹级奖励归一化作为优势。在操作任务中，稀疏二元奖励 + 长时域使得 GRPO 的优势方差很大，而 PPO 的 Critic 可以通过 TD-error 传播更精细的信用分配信号。

6.3 Flow-Noise vs Flow-SDE 的取舍

维度	Flow-Noise	Flow-SDE
性能	略高（1-2%）	略低
收敛速度	更快（单层 MDP，高数据利用率）	较慢
每步更新时间	随去噪步数线性增长（需重算整条链）	恒定（混合 ODE-SDE 只算 1 步）
额外参数	噪声网络（训练后丢弃）	无
理论基础	ReinFlow（联合似然代替边际似然）	Score-based SDE（保持边际不变）

实践中的选择取决于去噪步数：步数少时 Flow-Noise 的重计算开销可接受；步数多时 Flow-SDE 更高效。

6.4 冻结 VLM 的影响

论文在 RL 阶段冻结 VLM 仅微调 300M Action Expert（π₀）或等效部分。LoRA 消融显示在 LIBERO 上微调 VLM 收益有限——因为 LIBERO 场景变化小，预训练 VLM 已足够。但 ManiSkill OOD 实验中视觉泛化不佳，可能正是因为冻结了视觉表征。这是所有 VLA+RL 工作的共同瓶颈：训练效率 vs. 视觉适应性。

6.5 与 RLinf-VLA 系统的关系

πRL 构建在同一团队的 RLinf 框架上（RLinf-VLA 专注于自回归 VLA 的 PPO/GRPO，这里扩展到 flow-based VLA）。RLinf 的共置 GPU 分配策略（环境、rollout、actor 在同一 GPU 串行执行）是实现 320 并行环境训练的关键基础设施。πRL 的贡献更多在算法层面（两种 log-likelihood 估计），而不是系统层面。

参考

π₀（Black et al., 2024，arXiv 2410.24164）：Flow Matching VLA，πRL 的主要微调对象
π₀.₅（Physical Intelligence, 2025，arXiv 2504.16054）：开放世界泛化 VLA，πRL 的另一微调对象
ReinFlow（Zhang et al., 2025，arXiv 2505.22094）：Flow-Noise 的理论基础——可学习噪声 + 联合似然
Flow-GRPO（Liu et al., 2025，arXiv 2505.05470）：Flow-SDE 的理论基础——ODE→SDE 转换
DPPO（Ren et al., 2024，arXiv 2409.00588）：Diffusion Policy 的 PPO 框架，两层 MDP 的设计参考
RLinf-VLA（Zang et al., 2025，arXiv 2510.06710）：πRL 的基础系统框架
RL4VLA（Liu et al., 2025，arXiv 2505.19789）：PPO vs GRPO 实证比较，ManiSkill 泛化测试设置来源
SimpleVLA-RL（Li et al., 2025，arXiv 2509.09674）：GRPO + OpenVLA-OFT 的先驱工作
GR00T N1.5（Bjorck et al., 2025，arXiv 2503.14734）：附录验证了 πRL 对其他 flow VLA 的通用性

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

πRL：Flow-based VLA 的在线 RL 微调框架 ​

一句话总结 ​

一、问题与动机 ​

1.1 Flow-based VLA 的 RL 困境 ​

1.2 现有 flow+RL 工作的局限 ​

二、预备知识 ​

2.1 问题建模 ​

2.2 Flow Matching VLA 回顾 ​

三、核心方法 ​

3.1 Flow-Noise：可学习噪声 + 单层 MDP ​

3.1.1 随机性注入 ​

3.1.2 log-likelihood 估计 ​

3.2 Flow-SDE：ODE→SDE + 两层 MDP ​

3.2.1 随机性注入 ​

3.2.2 两层 MDP ​

3.2.3 混合 ODE-SDE 采样加速 ​

3.3 策略优化 ​

3.4 Critic 设计 ​

四、实验结果 ​

4.1 LIBERO（Few-shot SFT + RL） ​

4.2 ManiSkill ​

SIMPLER 基准（WidowX） ​

泛化测试（4352 任务组合） ​

4.3 MetaWorld MT50 ​

4.4 消融实验 ​

PPO vs GRPO ​

超参数权衡 ​

五、局限性 ​

六、个人思考 ​

6.1 与 FPO++/SAC Flow 的技术路线对比 ​

6.2 PPO > GRPO 的原因 ​

6.3 Flow-Noise vs Flow-SDE 的取舍 ​

6.4 冻结 VLM 的影响 ​

6.5 与 RLinf-VLA 系统的关系 ​

参考 ​