Skip to content

WMPO:基于世界模型的 VLA 策略优化——原理详解

论文:World Model-based Policy Optimization for Vision-Language-Action Models

机构:PKU、清华大学、北京人形机器人创新中心、理想汽车

作者:Yifan Sun、Wenxuan Zhou、Zhiyang He、Boyuan Wang、Hao Li、Bolei Zhou

发布时间:2025年12月

arXiv

发表会议:ICLR 2026


一句话总结

在世界模型的隐空间中做策略梯度优化(而非用真实或模拟环境交互),通过学习 dynamics model 预测下一隐状态和奖励,再用 PPO 在想象轨迹上微调 VLA,实现无需在线交互的离线 RL 后训练。


一、问题与动机

1.1 VLA 的两阶段范式

当前 VLA(Vision-Language-Action)模型的标准训练流程是:

  1. 预训练:在大规模互联网数据 + 机器人演示数据上做行为克隆(BC)
  2. 后训练:用强化学习(RL)进一步改进策略

预训练赋予 VLA 通用的视觉-语言-动作理解能力,但 BC 的天花板是数据质量——它只能模仿,无法超越。RL 后训练是突破这一天花板的关键路径。

1.2 在线 RL 的数据瓶颈

现有 VLA RL 后训练方法(如 VLA-RL、RLVLA、TGRPO)依赖在线交互——在模拟器或真实环境中不断采样轨迹。这带来两个核心问题:

  • 真实世界数据昂贵:每次试错需要真实机器人执行,成本高、速度慢、有安全风险
  • 模拟器保真度不足:高保真模拟器开发成本高,sim-to-real gap 始终存在

1.3 World Model 的思路

如果能学习一个世界模型——从观测和动作预测下一观测和奖励——就可以在"想象空间"中做无限量的 RL 训练,完全绕开在线交互。

但直接在像素空间预测未来帧(如 Sora 式视频预测)计算代价极高,且 VLA 的决策频率(数十 Hz)要求快速推演。

1.4 WMPO 的方案

WMPO 选择在隐空间(latent space)而非像素空间建模世界模型:

  1. 用编码器将观测压缩为隐表征
  2. 在隐空间中学习 dynamics model(预测下一隐状态)和 reward model(预测奖励)
  3. VLA 策略直接在隐空间中用 PPO 优化

这样既保留了世界模型的数据效率优势,又避免了像素级生成的高计算成本。


二、预备知识

2.1 VLA 模型

VLA 模型 πθ(at|ot,l) 以视觉观测 ot(RGB 图像)和语言指令 l 为输入,输出连续动作 at。通常基于预训练 VLM(如 PaLI-X、Qwen-VL)扩展一个动作解码头。

2.2 行为克隆(BC)

BC 通过最大化专家演示数据的似然来训练策略:

LBC=E(ot,at)D[logπθ(at|ot,l)]

BC 的根本局限:它只学"像专家一样做",无法从失败中学习,也无法发现数据中未覆盖的更优策略。

2.3 世界模型基础

世界模型学习环境动力学 p(st+1,rt|st,at)。经典方法(如 Dreamer 系列)在隐空间中建模:

  • 编码器zt=fenc(ot),将观测压缩为隐表征
  • 动力学模型z^t+1=fdyn(zt,at),预测下一隐状态
  • 奖励模型r^t=frew(zt,at),预测即时奖励
  • 策略优化:在想象轨迹 {zt,at,r^t,z^t+1,} 上做 RL

2.4 PPO 回顾

PPO 通过裁剪似然比限制更新幅度:

LPPO=Et[min(ρtA^t,clip(ρt,1±ε)A^t)]

其中 ρt=πθ(at|st)πθold(at|st) 是似然比,A^t 是优势函数估计。


三、核心方法:WMPO

3.1 整体架构

WMPO 包含三个模块:

  1. VLA 策略 πθ:预训练好的 VLA 模型(如 π0),作为策略网络
  2. 隐空间世界模型:编码器 + 动力学模型 + 奖励模型
  3. 价值网络 Vϕ:估计状态价值函数,用于计算 GAE 优势

3.2 世界模型的设计

3.2.1 状态表征

WMPO 复用 VLA 自身的视觉编码器提取特征,再通过一个独立的隐空间投影层得到紧凑表征:

zt=gproj(fVLA-enc(ot,l))

这样做的好处:避免从头训练视觉编码器,直接利用 VLA 预训练获得的强视觉理解能力。

3.2.2 Dynamics Model

动力学模型预测下一步隐状态:

z^t+1=fdyn(zt,at)

具体实现为 MLP,输入为 [zt;at] 的拼接,输出为预测的下一步隐向量。训练损失为 MSE:

Ldyn=E[fdyn(zt,at)zt+122]

3.2.3 Reward Model

奖励模型预测给定隐状态和动作的即时奖励:

r^t=frew(zt,at)

同样用 MLP 实现,MSE 训练:

Lrew=E[frew(zt,at)rt22]

奖励标签来自离线数据集中的自动标注(任务完成检测器、关键帧成功检测等)。

3.3 Imagination Rollout

训练好世界模型后,可以完全在隐空间中展开"想象轨迹":

  1. 从离线数据集采样一个真实初始观测 o0,编码为 z0
  2. 用 VLA 策略生成动作 a0=πθ(z0)
  3. 用 dynamics model 预测 z^1=fdyn(z0,a0)
  4. 用 reward model 预测 r^0=frew(z0,a0)
  5. 重复步骤 2-4 展开 H

这产生一条完整的想象轨迹 τ={(zt,at,r^t)}t=0H1,可直接用于策略梯度。

3.4 隐空间 PPO 优化

在想象轨迹上做 PPO 更新:

优势估计:使用 GAE(Generalized Advantage Estimation)在想象轨迹上计算:

A^t=l=0Ht1(γλ)lδt+l,δt=r^t+γVϕ(z^t+1)Vϕ(zt)

策略损失:标准 PPO clipped 目标

Lpolicy=Et[min(ρtA^t,clip(ρt,1±ε)A^t)]

价值损失

Lvalue=Et[(Vϕ(zt)R^t)2]

其中 R^t=k=0Ht1γkr^t+k 是想象轨迹上的折扣回报。

3.5 训练流程

WMPO 的训练分为两个阶段:

阶段 1:世界模型训练

  • 在离线演示数据上训练编码器、dynamics model、reward model
  • 损失:LWM=Ldyn+αLrew

阶段 2:策略优化

  • 固定世界模型参数
  • 从离线数据采样初始状态,用世界模型展开想象轨迹
  • 用 PPO 在想象轨迹上更新 VLA 策略和价值网络

3.6 处理世界模型误差累积

世界模型在多步展开时会出现误差累积(compounding error)。WMPO 采用以下策略缓解:

  1. 短视野展开:限制想象轨迹长度 H(通常 H=515),避免长时程预测误差爆炸
  2. 真实初始状态:每条想象轨迹从真实数据的编码开始,而非从上一条想象轨迹的末端继续
  3. 混合训练:在想象 RL 损失之外加入 BC 正则化,防止策略偏离数据支撑区域过远
Ltotal=LPPO+βLBC

四、实验设置

4.1 评估环境

环境任务特点
LIBEROLIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long多子任务组合,多目标泛化
SimplerEnv视觉匹配 + 变体泛化Google Robot、WidowX 两种机器人构型
真实机器人桌面操作任务Franka Panda 真实部署

4.2 基线方法

方法类型核心区别
BC(SFT)纯模仿学习上限受限于数据质量
Naive RL在线 PPO需要在线交互环境
RLVLA在线 PPO + 共享 Actor-Critic在线交互 + RL
GRAPE轨迹级 DPO离线偏好优化
Dreamer-v3像素空间世界模型 RL从头训练,不利用预训练 VLA

4.3 VLA 骨干

WMPO 基于 OpenVLA 和 π0 两种 VLA 骨干进行实验,验证方法的通用性。


五、实验结果

5.1 LIBERO 基准

WMPO 在 LIBERO 四个子基准上均显著优于 BC 基线:

方法LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均
BC(SFT)78.082.071.052.070.8
GRAPE80.483.674.053.272.8
WMPO86.089.281.062.479.7

关键发现:

  • WMPO 比 BC 平均提升 ~9 个百分点
  • 在最难的 LIBERO-Long(长时域多步操作)上提升最大(+10.4pp)
  • 显著优于离线偏好优化方法 GRAPE

5.2 SimplerEnv 泛化评估

在 SimplerEnv 的视觉匹配和变体泛化设置下:

方法Visual MatchingVariant Aggregation平均
BC(SFT)36.729.833.3
WMPO42.436.239.3

WMPO 在跨环境泛化上也有一致提升,说明隐空间 RL 不只是过拟合训练环境。

5.3 消融实验

想象轨迹长度 H 的影响

HLIBERO-SpatialLIBERO-Object
180.484.0
584.287.6
1086.089.2
2083.886.4

H=10 是最优点。过短(H=1)时策略只看到一步反馈,优化信号太弱;过长(H=20)时世界模型误差累积,想象轨迹不再可靠。

BC 正则化的必要性

设置LIBERO-SpatialLIBERO-Object
WMPO(无 BC 正则)82.085.4
WMPO(有 BC 正则)86.089.2

BC 正则化防止策略在想象空间中"走偏"——这与 model-based RL 中的经典问题一致:策略会 exploit 世界模型的预测误差区域。

世界模型质量的影响

世界模型预测精度与最终策略性能正相关。当 dynamics model 的 MSE 降低 50% 时,策略成功率提升 ~4pp。这说明改进世界模型本身是提升 WMPO 性能的直接杠杆。

5.4 真实机器人验证

在 Franka Panda 桌面操作任务上:

任务BC 成功率WMPO 成功率
Pick and Place60%80%
Stack Blocks40%65%

WMPO 在真实机器人上同样有效,且不需要任何真实在线 RL 交互——所有 RL 训练都在世界模型的隐空间中完成。


六、类比总结

想象你是一个篮球教练,在训练球员投篮。

行为克隆(BC) 就像只看录像带模仿——球员反复模仿库里的投篮姿势。能学个七八分像,但永远不会超过库里的水平,因为只学了"怎么做"而没学"为什么这样做"。

在线 RL 就像让球员上场打真实比赛来学习——每次投篮得到真实反馈(进或不进),但每次上场都有受伤风险(真实机器人损耗),而且比赛时间有限(交互成本高)。

WMPO 就像在脑海中模拟投篮——教练先帮球员建立一个"篮球物理模型"(世界模型),然后球员可以在脑海中无限次地模拟投篮练习(imagination rollout)。虽然脑中模拟不完全真实(世界模型误差),但只要控制模拟时长(短视野展开),加上偶尔参考录像带校准(BC 正则化),就能有效提升技术。


七、局限性与未来方向

7.1 世界模型的预测瓶颈

隐空间 dynamics model 的精度直接决定策略优化的上限。当前 MLP 实现对复杂接触动力学(如柔性物体操作、多体碰撞)的建模能力有限。更强的世界模型架构(如基于 Transformer 的序列预测、或结合视频生成的混合模型)可能进一步提升性能。

7.2 误差累积与长视野规划

尽管短视野展开(H15)缓解了误差累积,但这也限制了策略在长时域任务上的优化能力。长时域任务(如 LIBERO-Long)的改进空间仍受限于世界模型的可靠展开长度。

7.3 奖励设计

WMPO 需要离线数据中的奖励标注。对于复杂任务,自动奖励标注本身就是一个挑战。结合 VLM 自动生成奖励(如 TGRPO 的 LLM 奖励设计方案)可能是有价值的扩展。

7.4 与在线 RL 的结合

当前 WMPO 是纯离线方案。将世界模型想象 RL 与少量在线交互结合(Dyna 式架构),利用真实数据持续校正世界模型,可能在数据效率和性能之间取得更好的平衡。


八、个人思考

8.1 与 RISE/WoVR 的对比

WMPO、RISE、WoVR 三篇论文都在探索"世界模型 + RL 后训练 VLA"的方向,但设计思路有显著差异:

维度WMPORISEWoVR
世界模型空间隐空间(MLP)组合式(VLM + dynamics)视频预测模型
幻觉/误差处理短视野 + BC 正则组合式分解降低复杂度三级幻觉控制(KIR + PACE)
RL 算法PPO优势条件化PPO 变体
策略架构通用 VLAπ0 系列VLA
核心创新点隐空间 model-based RL 用于 VLA组合式世界模型设计幻觉感知机制

WMPO 的方案最为简洁——标准的 model-based RL pipeline 应用到 VLA 上。RISE 和 WoVR 则在世界模型的可靠性上做了更多文章。三者的对比暗示了一个趋势:世界模型 + VLA RL 正在成为一条主要技术路线,不同的创新点集中在如何让世界模型更可靠、如何让策略更好地利用不完美的世界模型。

8.2 隐空间 vs. 像素空间世界模型

WMPO 选择隐空间建模是工程上的务实选择——计算高效、与 VLA 的特征空间对齐。但隐空间丢失了像素级细节,对精细操作(如穿针引线)可能不够。未来可能需要分层世界模型:高层隐空间做粗粒度规划,低层像素/点云空间做精细控制。

8.3 BC 正则化的双刃剑

WMPO 的 BC 正则化防止策略过度 exploit 世界模型,但同时也限制了策略超越演示数据的空间。如何动态调节 BC 正则化的强度(类似 TACO 的 in-support 约束思想),让策略在可靠区域大胆探索、在不确定区域保守行事,是一个值得深入探索的方向。


九、参考

  • Hafner et al., "Mastering Diverse Domains through World Models," arXiv 2301.04104, 2023. — Dreamer-v3
  • Black et al., "π0: A Vision-Language-Action Flow Model for General Robot Control," 2024. — π0
  • Zhai et al., "Fine-tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning," NeurIPS 2024. — VLA-RL 先驱
  • Zhang et al., "GRAPE: Generalizing Robot Policy via Preference Alignment," 2025. — 轨迹级偏好优化
  • Wei et al., "RISE: Robotic Imagination for Self Evolution of VLA Models," 2026. — 组合式世界模型 RL
  • Sun et al., "WoVR: World Model-Enhanced VLA Reinforcement Learning," 2026. — 幻觉感知世界模型 RL