WMPO：基于世界模型的 VLA 策略优化——原理详解

论文：World Model-based Policy Optimization for Vision-Language-Action Models
机构：PKU、清华大学、北京人形机器人创新中心、理想汽车
作者：Yifan Sun、Wenxuan Zhou、Zhiyang He、Boyuan Wang、Hao Li、Bolei Zhou
发布时间：2025年12月
arXiv
发表会议：ICLR 2026

一句话总结

在世界模型的隐空间中做策略梯度优化（而非用真实或模拟环境交互），通过学习 dynamics model 预测下一隐状态和奖励，再用 PPO 在想象轨迹上微调 VLA，实现无需在线交互的离线 RL 后训练。

一、问题与动机

1.1 VLA 的两阶段范式

当前 VLA（Vision-Language-Action）模型的标准训练流程是：

预训练：在大规模互联网数据 + 机器人演示数据上做行为克隆（BC）
后训练：用强化学习（RL）进一步改进策略

预训练赋予 VLA 通用的视觉-语言-动作理解能力，但 BC 的天花板是数据质量——它只能模仿，无法超越。RL 后训练是突破这一天花板的关键路径。

1.2 在线 RL 的数据瓶颈

现有 VLA RL 后训练方法（如 VLA-RL、RLVLA、TGRPO）依赖在线交互——在模拟器或真实环境中不断采样轨迹。这带来两个核心问题：

真实世界数据昂贵：每次试错需要真实机器人执行，成本高、速度慢、有安全风险
模拟器保真度不足：高保真模拟器开发成本高，sim-to-real gap 始终存在

1.3 World Model 的思路

如果能学习一个世界模型——从观测和动作预测下一观测和奖励——就可以在"想象空间"中做无限量的 RL 训练，完全绕开在线交互。

但直接在像素空间预测未来帧（如 Sora 式视频预测）计算代价极高，且 VLA 的决策频率（数十 Hz）要求快速推演。

1.4 WMPO 的方案

WMPO 选择在隐空间（latent space）而非像素空间建模世界模型：

用编码器将观测压缩为隐表征
在隐空间中学习 dynamics model（预测下一隐状态）和 reward model（预测奖励）
VLA 策略直接在隐空间中用 PPO 优化

这样既保留了世界模型的数据效率优势，又避免了像素级生成的高计算成本。

二、预备知识

2.1 VLA 模型

VLA 模型 $π_{θ} (a_{t} | o_{t}, l)$ 以视觉观测 $o_{t}$ （RGB 图像）和语言指令 $l$ 为输入，输出连续动作 $a_{t}$ 。通常基于预训练 VLM（如 PaLI-X、Qwen-VL）扩展一个动作解码头。

2.2 行为克隆（BC）

BC 通过最大化专家演示数据的似然来训练策略：

L_{BC} = - E_{(o_{t}, a_{t}^{*}) \sim D} [\log π_{θ} (a_{t}^{*} | o_{t}, l)]

BC 的根本局限：它只学"像专家一样做"，无法从失败中学习，也无法发现数据中未覆盖的更优策略。

2.3 世界模型基础

世界模型学习环境动力学 $p (s_{t + 1}, r_{t} | s_{t}, a_{t})$ 。经典方法（如 Dreamer 系列）在隐空间中建模：

编码器： $z_{t} = f_{enc} (o_{t})$ ，将观测压缩为隐表征
动力学模型： ${\hat{z}}_{t + 1} = f_{dyn} (z_{t}, a_{t})$ ，预测下一隐状态
奖励模型： ${\hat{r}}_{t} = f_{rew} (z_{t}, a_{t})$ ，预测即时奖励
策略优化：在想象轨迹 ${z_{t}, a_{t}, {\hat{r}}_{t}, {\hat{z}}_{t + 1}, \dots}$ 上做 RL

2.4 PPO 回顾

PPO 通过裁剪似然比限制更新幅度：

L_{PPO} = - E_{t} [min (ρ_{t} {\hat{A}}_{t}, clip (ρ_{t}, 1 \pm ε) {\hat{A}}_{t})]

其中 $ρ_{t} = \frac{π_{θ} (a_{t} | s_{t})}{π_{θ_{old}} (a_{t} | s_{t})}$ 是似然比， ${\hat{A}}_{t}$ 是优势函数估计。

三、核心方法：WMPO

3.1 整体架构

WMPO 包含三个模块：

VLA 策略 $π_{θ}$ ：预训练好的 VLA 模型（如 $π_{0}$ ），作为策略网络
隐空间世界模型：编码器 + 动力学模型 + 奖励模型
价值网络 $V_{ϕ}$ ：估计状态价值函数，用于计算 GAE 优势

3.2 世界模型的设计

3.2.1 状态表征

WMPO 复用 VLA 自身的视觉编码器提取特征，再通过一个独立的隐空间投影层得到紧凑表征：

z_{t} = g_{proj} (f_{VLA-enc} (o_{t}, l))

这样做的好处：避免从头训练视觉编码器，直接利用 VLA 预训练获得的强视觉理解能力。

3.2.2 Dynamics Model

动力学模型预测下一步隐状态：

{\hat{z}}_{t + 1} = f_{dyn} (z_{t}, a_{t})

具体实现为 MLP，输入为 $[z_{t}; a_{t}]$ 的拼接，输出为预测的下一步隐向量。训练损失为 MSE：

L_{dyn} = E [∥ f_{dyn} (z_{t}, a_{t}) - z_{t + 1} ∥_{2}^{2}]

3.2.3 Reward Model

奖励模型预测给定隐状态和动作的即时奖励：

{\hat{r}}_{t} = f_{rew} (z_{t}, a_{t})

同样用 MLP 实现，MSE 训练：

L_{rew} = E [∥ f_{rew} (z_{t}, a_{t}) - r_{t} ∥_{2}^{2}]

奖励标签来自离线数据集中的自动标注（任务完成检测器、关键帧成功检测等）。

3.3 Imagination Rollout

训练好世界模型后，可以完全在隐空间中展开"想象轨迹"：

从离线数据集采样一个真实初始观测 $o_{0}$ ，编码为 $z_{0}$
用 VLA 策略生成动作 $a_{0} = π_{θ} (z_{0})$
用 dynamics model 预测 ${\hat{z}}_{1} = f_{dyn} (z_{0}, a_{0})$
用 reward model 预测 ${\hat{r}}_{0} = f_{rew} (z_{0}, a_{0})$
重复步骤 2-4 展开 $H$ 步

这产生一条完整的想象轨迹 $τ = {(z_{t}, a_{t}, {\hat{r}}_{t})}_{t = 0}^{H - 1}$ ，可直接用于策略梯度。

3.4 隐空间 PPO 优化

在想象轨迹上做 PPO 更新：

优势估计：使用 GAE（Generalized Advantage Estimation）在想象轨迹上计算：

{\hat{A}}_{t} = \sum_{l = 0}^{H - t - 1} (γ λ)^{l} δ_{t + l}, δ_{t} = {\hat{r}}_{t} + γ V_{ϕ} ({\hat{z}}_{t + 1}) - V_{ϕ} (z_{t})

策略损失：标准 PPO clipped 目标

L_{policy} = - E_{t} [min (ρ_{t} {\hat{A}}_{t}, clip (ρ_{t}, 1 \pm ε) {\hat{A}}_{t})]

价值损失：

L_{value} = E_{t} [(V_{ϕ} (z_{t}) - {\hat{R}}_{t})^{2}]

其中 ${\hat{R}}_{t} = \sum_{k = 0}^{H - t - 1} γ^{k} {\hat{r}}_{t + k}$ 是想象轨迹上的折扣回报。

3.5 训练流程

WMPO 的训练分为两个阶段：

阶段 1：世界模型训练

在离线演示数据上训练编码器、dynamics model、reward model
损失： $L_{WM} = L_{dyn} + α L_{rew}$

阶段 2：策略优化

固定世界模型参数
从离线数据采样初始状态，用世界模型展开想象轨迹
用 PPO 在想象轨迹上更新 VLA 策略和价值网络

3.6 处理世界模型误差累积

世界模型在多步展开时会出现误差累积（compounding error）。WMPO 采用以下策略缓解：

短视野展开：限制想象轨迹长度 $H$ （通常 $H = 5 \sim 15$ ），避免长时程预测误差爆炸
真实初始状态：每条想象轨迹从真实数据的编码开始，而非从上一条想象轨迹的末端继续
混合训练：在想象 RL 损失之外加入 BC 正则化，防止策略偏离数据支撑区域过远

L_{total} = L_{PPO} + β L_{BC}

四、实验设置

4.1 评估环境

环境	任务	特点
LIBERO	LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long	多子任务组合，多目标泛化
SimplerEnv	视觉匹配 + 变体泛化	Google Robot、WidowX 两种机器人构型
真实机器人	桌面操作任务	Franka Panda 真实部署

4.2 基线方法

方法	类型	核心区别
BC（SFT）	纯模仿学习	上限受限于数据质量
Naive RL	在线 PPO	需要在线交互环境
RLVLA	在线 PPO + 共享 Actor-Critic	在线交互 + RL
GRAPE	轨迹级 DPO	离线偏好优化
Dreamer-v3	像素空间世界模型 RL	从头训练，不利用预训练 VLA

4.3 VLA 骨干

WMPO 基于 OpenVLA 和 $π_{0}$ 两种 VLA 骨干进行实验，验证方法的通用性。

五、实验结果

5.1 LIBERO 基准

WMPO 在 LIBERO 四个子基准上均显著优于 BC 基线：

方法	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	平均
BC（SFT）	78.0	82.0	71.0	52.0	70.8
GRAPE	80.4	83.6	74.0	53.2	72.8
WMPO	86.0	89.2	81.0	62.4	79.7

关键发现：

WMPO 比 BC 平均提升 ~9 个百分点
在最难的 LIBERO-Long（长时域多步操作）上提升最大（+10.4pp）
显著优于离线偏好优化方法 GRAPE

5.2 SimplerEnv 泛化评估

在 SimplerEnv 的视觉匹配和变体泛化设置下：

方法	Visual Matching	Variant Aggregation	平均
BC（SFT）	36.7	29.8	33.3
WMPO	42.4	36.2	39.3

WMPO 在跨环境泛化上也有一致提升，说明隐空间 RL 不只是过拟合训练环境。

5.3 消融实验

想象轨迹长度 $H$ 的影响

$H$	LIBERO-Spatial	LIBERO-Object
1	80.4	84.0
5	84.2	87.6
10	86.0	89.2
20	83.8	86.4

$H = 10$ 是最优点。过短（ $H = 1$ ）时策略只看到一步反馈，优化信号太弱；过长（ $H = 20$ ）时世界模型误差累积，想象轨迹不再可靠。

BC 正则化的必要性

设置	LIBERO-Spatial	LIBERO-Object
WMPO（无 BC 正则）	82.0	85.4
WMPO（有 BC 正则）	86.0	89.2

BC 正则化防止策略在想象空间中"走偏"——这与 model-based RL 中的经典问题一致：策略会 exploit 世界模型的预测误差区域。

世界模型质量的影响

世界模型预测精度与最终策略性能正相关。当 dynamics model 的 MSE 降低 50% 时，策略成功率提升 ~4pp。这说明改进世界模型本身是提升 WMPO 性能的直接杠杆。

5.4 真实机器人验证

在 Franka Panda 桌面操作任务上：

任务	BC 成功率	WMPO 成功率
Pick and Place	60%	80%
Stack Blocks	40%	65%

WMPO 在真实机器人上同样有效，且不需要任何真实在线 RL 交互——所有 RL 训练都在世界模型的隐空间中完成。

六、类比总结

想象你是一个篮球教练，在训练球员投篮。

行为克隆（BC） 就像只看录像带模仿——球员反复模仿库里的投篮姿势。能学个七八分像，但永远不会超过库里的水平，因为只学了"怎么做"而没学"为什么这样做"。

在线 RL 就像让球员上场打真实比赛来学习——每次投篮得到真实反馈（进或不进），但每次上场都有受伤风险（真实机器人损耗），而且比赛时间有限（交互成本高）。

WMPO 就像在脑海中模拟投篮——教练先帮球员建立一个"篮球物理模型"（世界模型），然后球员可以在脑海中无限次地模拟投篮练习（imagination rollout）。虽然脑中模拟不完全真实（世界模型误差），但只要控制模拟时长（短视野展开），加上偶尔参考录像带校准（BC 正则化），就能有效提升技术。

七、局限性与未来方向

7.1 世界模型的预测瓶颈

隐空间 dynamics model 的精度直接决定策略优化的上限。当前 MLP 实现对复杂接触动力学（如柔性物体操作、多体碰撞）的建模能力有限。更强的世界模型架构（如基于 Transformer 的序列预测、或结合视频生成的混合模型）可能进一步提升性能。

7.2 误差累积与长视野规划

尽管短视野展开（ $H \leq 15$ ）缓解了误差累积，但这也限制了策略在长时域任务上的优化能力。长时域任务（如 LIBERO-Long）的改进空间仍受限于世界模型的可靠展开长度。

7.3 奖励设计

WMPO 需要离线数据中的奖励标注。对于复杂任务，自动奖励标注本身就是一个挑战。结合 VLM 自动生成奖励（如 TGRPO 的 LLM 奖励设计方案）可能是有价值的扩展。

7.4 与在线 RL 的结合

当前 WMPO 是纯离线方案。将世界模型想象 RL 与少量在线交互结合（Dyna 式架构），利用真实数据持续校正世界模型，可能在数据效率和性能之间取得更好的平衡。

八、个人思考

8.1 与 RISE/WoVR 的对比

WMPO、RISE、WoVR 三篇论文都在探索"世界模型 + RL 后训练 VLA"的方向，但设计思路有显著差异：

维度	WMPO	RISE	WoVR
世界模型空间	隐空间（MLP）	组合式（VLM + dynamics）	视频预测模型
幻觉/误差处理	短视野 + BC 正则	组合式分解降低复杂度	三级幻觉控制（KIR + PACE）
RL 算法	PPO	优势条件化	PPO 变体
策略架构	通用 VLA	$π_{0}$ 系列	VLA
核心创新点	隐空间 model-based RL 用于 VLA	组合式世界模型设计	幻觉感知机制

WMPO 的方案最为简洁——标准的 model-based RL pipeline 应用到 VLA 上。RISE 和 WoVR 则在世界模型的可靠性上做了更多文章。三者的对比暗示了一个趋势：世界模型 + VLA RL 正在成为一条主要技术路线，不同的创新点集中在如何让世界模型更可靠、如何让策略更好地利用不完美的世界模型。

8.2 隐空间 vs. 像素空间世界模型

WMPO 选择隐空间建模是工程上的务实选择——计算高效、与 VLA 的特征空间对齐。但隐空间丢失了像素级细节，对精细操作（如穿针引线）可能不够。未来可能需要分层世界模型：高层隐空间做粗粒度规划，低层像素/点云空间做精细控制。

8.3 BC 正则化的双刃剑

WMPO 的 BC 正则化防止策略过度 exploit 世界模型，但同时也限制了策略超越演示数据的空间。如何动态调节 BC 正则化的强度（类似 TACO 的 in-support 约束思想），让策略在可靠区域大胆探索、在不确定区域保守行事，是一个值得深入探索的方向。

九、参考

Hafner et al., "Mastering Diverse Domains through World Models," arXiv 2301.04104, 2023. — Dreamer-v3
Black et al., " $π_{0}$ : A Vision-Language-Action Flow Model for General Robot Control," 2024. — $π_{0}$
Zhai et al., "Fine-tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning," NeurIPS 2024. — VLA-RL 先驱
Zhang et al., "GRAPE: Generalizing Robot Policy via Preference Alignment," 2025. — 轨迹级偏好优化
Wei et al., "RISE: Robotic Imagination for Self Evolution of VLA Models," 2026. — 组合式世界模型 RL
Sun et al., "WoVR: World Model-Enhanced VLA Reinforcement Learning," 2026. — 幻觉感知世界模型 RL

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

WMPO：基于世界模型的 VLA 策略优化——原理详解 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 的两阶段范式 ​

1.2 在线 RL 的数据瓶颈 ​

1.3 World Model 的思路 ​

1.4 WMPO 的方案 ​

二、预备知识 ​

2.1 VLA 模型 ​

2.2 行为克隆（BC） ​

2.3 世界模型基础 ​

2.4 PPO 回顾 ​

三、核心方法：WMPO ​

3.1 整体架构 ​

3.2 世界模型的设计 ​

3.2.1 状态表征 ​

3.2.2 Dynamics Model ​

3.2.3 Reward Model ​

3.3 Imagination Rollout ​

3.4 隐空间 PPO 优化 ​

3.5 训练流程 ​

3.6 处理世界模型误差累积 ​

四、实验设置 ​

4.1 评估环境 ​

4.2 基线方法 ​

4.3 VLA 骨干 ​

五、实验结果 ​

5.1 LIBERO 基准 ​

5.2 SimplerEnv 泛化评估 ​

5.3 消融实验 ​

想象轨迹长度 H 的影响 ​

BC 正则化的必要性 ​

世界模型质量的影响 ​

5.4 真实机器人验证 ​

六、类比总结 ​

七、局限性与未来方向 ​

7.1 世界模型的预测瓶颈 ​

7.2 误差累积与长视野规划 ​

7.3 奖励设计 ​

7.4 与在线 RL 的结合 ​

八、个人思考 ​

8.1 与 RISE/WoVR 的对比 ​

8.2 隐空间 vs. 像素空间世界模型 ​

8.3 BC 正则化的双刃剑 ​

九、参考 ​