Skip to content

VLA-RFT:世界模型驱动的 Verified Reward 强化微调——原理详解

论文:VLA-RFT: Vision-Language-Action Reinforcement Fine-Tuning with Verified Rewards in World Simulators

机构:Westlake University、Zhejiang University、OpenHelix Team、Fudan University 等

作者:Hengtao Li、Pengxiang Ding、Runze Suo、Yihao Wang、Zirui Ge 等

发布时间:2025年10月

arXiv


一句话总结

用数据驱动的视频预测世界模型充当可控模拟器,将 VLA 输出的动作在世界模型中 rollout 得到视觉轨迹,通过与目标参考轨迹对比计算 verified reward(像素级 MAE + 感知级 LPIPS),再用 GRPO 端到端更新 VLA——仅需 400 步微调即超越 150K 步 SFT 基线。


一、问题与动机

1.1 模仿学习的瓶颈

当前 VLA 模型主要依赖模仿学习(行为克隆),天然存在两个问题:

  • 误差累积(compounding error):一旦策略偏离专家轨迹,小偏差逐步放大,驱使策略进入从未见过的状态
  • 分布偏移下鲁棒性差:对物体位置、目标位置、机器人初始状态的微小扰动,策略性能急剧下降

1.2 RL 后训练的三条路线及各自困境

路线代表方法核心瓶颈
在线 RL(真实世界)VLA-RL、RLVLA数据昂贵、安全风险、交互速度慢
在线 RL(模拟器)TGRPO、ConRFT需百万级交互、sim-to-real gap
离线 RLARFM、RWR无法从自身动作后果中学习、受限于数据分布

1.3 VLA-RFT 的思路

核心洞察:用一个数据驱动的世界模型(learned world model)充当"可控模拟器"——

  1. 世界模型在离线数据上预训练,学习 (ot,at)ot+1 的动力学
  2. VLA 提出动作 → 世界模型生成视觉轨迹 → 与参考轨迹对比得到 verified reward
  3. 用 GRPO 做策略优化

这条路线兼具离线训练的安全性和在线交互的学习信号丰富性。

1.4 与 WMPO/RISE/WoVR 的关键区别

维度VLA-RFTWMPORISEWoVR
世界模型空间像素空间(视频预测)隐空间隐空间像素空间
奖励来源Verified reward(MAE+LPIPS)隐空间 reward model想象轨迹 rewardVLM 判别
策略优化GRPOPPOPPOPPO
策略参数化SDE-Policy(Flow+Sigma)Flow MatchingDiffusionDiffusion
训练步数400~数千~数千~数千

VLA-RFT 的最大特色是在像素空间做世界模型预测,配合 verified reward 实现极高的样本效率。


二、预备知识

2.1 Flow Matching 动作头

VLA 策略被分解为两部分:

a^i:i+T1πθ(|oi,li,si)=πθfm(|zi,si),zi=fVLM(oi,li)
  • fVLM:视觉-语言编码器,将图像和指令编码为隐表征 zi
  • πθfm:flow-matching 动作头,生成 T 步动作 chunk

2.2 GRPO(Group Relative Policy Optimization)

GRPO 的核心思想是对同一起始状态采样 N 条 rollout,用组内平均奖励作 baseline 计算优势:

R¯group=1Nj=1NRj,Advn=RnR¯group

然后用 clipped policy ratio 做优化,避免 critic 网络的引入。

2.3 LPIPS 感知距离

LPIPS(Learned Perceptual Image Patch Similarity)使用预训练深度网络的特征衡量图像间的感知相似度,比像素级 L1/L2 更符合人类对"相似"的判断。dLPIPS 越小表示越相似。


三、核心方法:VLA-RFT

3.1 两阶段训练框架

Stage I: 预训练——世界模型 + VLA 策略分别在离线数据上初始化

Stage II: 强化微调——VLA 与世界模型交互,通过 verified reward 优化策略

3.2 Stage I: 世界模型预训练

世界模型是一个基于 LLaMA 架构的轻量级自回归 Transformer(138M 参数,GPT-2 small 规模),由 VQGAN 编码器(将图像转为离散 token)和 动作 tokenizer(连续动作离散化)组成。

训练目标为最大似然:

LMLEWM(ϕ)=E[logpϕ(oi+1|oi,ai)+t=1T1logpϕ(oi+t+1|oi:i+t,ai:i+t)]

其中 pϕ 是世界模型的预测分布。给定初始帧和动作序列,世界模型自回归地生成未来视觉帧。

3.3 Stage I: VLA 预训练

用标准 flow matching MSE loss 在专家数据上初始化 VLA:

LMSEVLA(θ)=E(a,o,l,s)D[vθ(o,l,s,aτ)uτ22]

其中 τBeta(α,β) 是 flow matching 时间步,aτ=τa+(1τ)ϵ 是噪声扰动的动作,uτ=aϵ 是目标流场。

3.4 SDE-Policy:从确定性 ODE 到随机 SDE

问题:Flow matching 本质上是确定性 ODE 过程,难以直接计算 log-likelihood(RL 需要)。

解决方案:引入 Sigma Net(与 flow-matching head 同构的网络),为每个 denoising step 输出方差向量 σψk,将确定性 ODE 扩展为随机 SDE:

μk=ai:i+T1kδ+δvθ(oi,li,si,ai:i+T1kδ)ai:i+T1kδN(μk,Σk),Σk=(σψk)2

这里 δ=0.1K=10 步积分。均值由 flow head 提供,方差由 Sigma Net 提供,两者共同定义高斯条件分布。

对数似然计算:在一次 rollout 中,对 K 步 denoising 的 step-wise log-likelihood 取平均:

¯θ,ψ=1Kk=1Klogpθ,ψ(k)(akδ|a(k1)δ,zi,si)

策略比率

r=exp(¯θ,ψ¯old)

用大白话说:Sigma Net 赋予了 flow policy 随机性(exploration 能力),同时使 log-likelihood 有了显式解析形式,让 GRPO 可以直接计算策略比率。

3.5 Verified Reward:世界模型内的轨迹对比

给定 VLA 输出的动作 chunk ai:i+T1K,世界模型自回归生成视觉轨迹:

Traj=[oi,aiKδ,o^i+1,,ai+T1Kδ,o^i+T]

关键设计:奖励不是将生成帧与真实图像直接对比,而是让同一个世界模型分别用策略动作和专家动作生成两条轨迹,在同一生成空间内对比——消除了世界模型生成质量偏差:

R=t=0T1[λ1L1(o^i+t+1,oi+t+1)+λlpLPIPS(o^i+t+1,oi+t+1)]
  • L1:像素级绝对误差,衡量低层匹配度
  • LPIPS:感知距离,衡量语义级匹配度
  • λ1,λlp:权重系数

3.6 GRPO 优化目标

LGRPOVLA(θ,ψ)=E[clip(r,1ϵ,1+ϵ)Adv]+λmseLMSEVLA(θ)αH(πθ,ψ)

三项组成:

作用
Clipped surrogate策略梯度优化,限制更新幅度
λmseLMSEVLA辅助 flow matching loss,防止 action head 遗忘
αH(π)熵正则,鼓励探索

3.7 三种 Reward 设计对比

论文对比了三种 verified reward:

类型描述效果
Reward Type 1策略动作 vs 数据动作的 L1 距离(无世界模型)+1.1
Reward Type 2世界模型生成帧 vs 真实图像的 MAE+LPIPS+0.5
Reward Type 3(本文)同一世界模型分别渲染策略/数据动作轨迹后对比+4.5

Type 3 在同一生成空间做对比,消除了世界模型生成质量偏差,效果远优于直接用真实图像对比。


四、实验设置

4.1 基准与指标

  • 基准:LIBERO benchmark(4 个子 suite:Spatial、Object、Goal、Long)
  • 指标:成功率(SR, %)
  • 扰动测试:物体位置、目标位置、机器人状态、组合扰动

4.2 基线策略

  • VLA-Adapter(Wang et al., 2025):轻量级 VLA,上层 VLM(Qwen2.5-0.5B + DINOSigLIP)+ 下层 DiT flow matching action head
  • VLM 用 LoRA(rank 64)高效微调

4.3 世界模型配置

  • 架构:LLaMA 风格,12 层 Transformer,hidden 768,FFN 3072,138M 参数
  • 输入:VQGAN 编码的图像 token + 离散化的动作 token
  • 预训练:LIBERO 数据集,150K 步

4.4 训练细节

超参数
优势估计GRPO
学习率1×106
Sigma Net 学习率1×105
MSE loss 系数0.01
熵系数0.003
训练步数400
Batch size16
Rollout 次数16
框架VERL(4x A800 GPU)

五、实验结果

5.1 世界模型质量

指标SpatialObjectGoalLong平均
MSE ↓0.00390.00360.00240.00560.0039
PSNR ↑24.9825.1326.9923.8325.23
SSIM ↑0.8960.9130.9290.8850.906
LPIPS ↓0.0670.0540.0400.0740.059

世界模型在像素保真度和感知质量上均表现优异,验证了其作为"可控模拟器"的可行性。

5.2 标准设置性能

策略SpatialObjectGoalLong平均
Base (3w)82.484.885.457.277.5
Base (15w)88.488.092.877.286.6
VLA-RFT (400)94.494.495.480.291.1
Δ vs Base (15w)+6.0+6.4+2.6+3.0+4.5

仅 400 步 RFT 即超越 150K 步 SFT 基线 +4.5 个百分点,样本效率提升约 375 倍。

5.3 扰动鲁棒性

扰动类型Base (15w)VLA-RFTΔ
Object Position (±2.5cm)69.373.5+4.2
Object Position (±5cm)48.052.5+4.5
Goal Position (±2.5cm)74.579.0+4.5
Goal Position (±5cm)44.851.5+6.7
RoboState (±20)73.076.5+2.5
RoboState (±50)63.567.0+3.5
Combined (±2.5/2.5/20)63.570.0+6.5
Combined (±5/5/50)34.037.0+3.0

VLA-RFT 在所有扰动条件下均优于基线,组合扰动下提升最显著(+6.5%)。动作分布可视化显示 RFT 策略的动作覆盖更广,SFT 策略集中在窄区域。

5.4 与其他 RL 方法对比

类型方法基线 SR微调后 SRΔ训练步数
OnlineVLA-RL76.581.0+4.510,000
OfflineARFM88.192.1+4.040,000
OfflineRWR88.190.8+2.740,000
OfflineReinboT88.191.2+3.140,000
OursVLA-RFT86.691.1+4.5400

VLA-RFT 以 400 步达到与 online RL(10K 步)、offline RL(40K 步)相当甚至更优的提升,数据效率优势巨大。


六、类比总结

把 VLA-RFT 想象成一个"考试模拟器":

  • Stage I:老师(世界模型)先学会"出题+批改"的能力,学生(VLA)先学会基本功
  • Stage II:学生做模拟卷(rollout),老师批改并打分(verified reward),学生根据分数调整答题策略(GRPO),不需要真正参加考试(真实环境交互)
  • Reward Type 3 的精妙之处:老师不是拿标准答案直接对比,而是把标准答案也用同样的出题方式重新"翻译"一遍再对比,消除了翻译偏差

七、局限性

7.1 奖励仍依赖专家数据

Verified reward 本质上是与专家轨迹的相似度,策略无法发现超越专家的策略。未来可引入 learned reward model(如 VLAC)提供更任务相关的反馈。

7.2 世界模型容量瓶颈

138M 的轻量世界模型在 LIBERO 上表现良好,但扩展到更复杂的真实场景时,模型容量可能不足,需要更大规模数据和更大模型。

7.3 未集成规划

当前世界模型仅作为 reward 提供者,未用于前向规划(look-ahead planning),未充分发挥其动力学预测能力。

7.4 策略架构限制

当前框架针对 flow-matching 策略设计(特别是 SDE-Policy 的 Sigma Net),扩展到自回归离散 token VLA 或 diffusion policy 需要额外适配。


八、个人思考

8.1 与 WMPO 的互补视角

WMPO 在隐空间做世界模型 + PPO,VLA-RFT 在像素空间做世界模型 + GRPO。两者形成了有趣的互补:

  • 隐空间方案计算快但信息有损,像素空间方案保真度高但计算重
  • VLA-RFT 的 verified reward 比 WMPO 的 learned reward model 更可验证、更稳定
  • VLA-RFT 的 400 步极端高效可能得益于像素级 dense reward 的信号丰富度

8.2 SDE-Policy 的通用性

将 flow matching ODE 扩展为 SDE 的技巧(引入 Sigma Net)是一个通用方法,可以为所有基于 flow matching 的 VLA 提供 RL 所需的 log-likelihood。这与 FPO++ 用 CFM loss 差值近似 likelihood ratio 的思路形成对比——SDE-Policy 更"正统"但引入了额外网络,FPO++ 更轻量但是近似。

8.3 Verified Reward 的设计哲学

Type 3 reward 的核心洞察——在同一生成空间内对比而非跨空间对比——是一个值得推广的设计原则。在所有涉及生成模型的评估场景中,都应考虑消除生成质量偏差的影响。

8.4 样本效率的上限在哪

400 步就能提升 4.5 个百分点,这暗示 SFT 基线仍有大量"低垂果实"可被 RL 摘取。但随着基线变强,RFT 的边际收益是否会快速递减?论文中 Base (3w) → Base (15w) 的 SFT 阶段增量已经很小,这可能意味着 RFT 的收益空间有限。


参考

  • WMPO(Sun et al., 2025):隐空间世界模型 + PPO 的离线 RL 后训练 VLA,本站有笔记
  • RISE(2026):组合式世界模型 + 想象空间 RL,本站有笔记
  • WoVR(2026):幻觉感知世界模型 RL,本站有笔记
  • FPO++(2026):CFM 损失差值近似似然比的 flow policy RL,本站有笔记
  • VLA-RL(Lu et al., 2025):在线 PPO 微调自回归 VLA,本站有笔记
  • RLVLA(Liu et al., 2025):RL 在语义和执行维度提升 VLA 泛化,本站有笔记
  • ReinFlow(Zhang et al., 2025):flow matching + 在线 RL 的基础方法
  • VLA-Adapter(Wang et al., 2025):轻量级 VLA adapter 范式,本文基线
  • VERL / HybridFlow(Sheng et al., 2025):分布式 RL 训练框架
  • iVideoGPT(Wu et al., 2024):交互式视频预测世界模型