WMPO:基于世界模型的 VLA 策略优化——原理详解
论文:World Model-based Policy Optimization for Vision-Language-Action Models
机构:PKU、清华大学、北京人形机器人创新中心、理想汽车
作者:Yifan Sun、Wenxuan Zhou、Zhiyang He、Boyuan Wang、Hao Li、Bolei Zhou
发布时间:2025年12月
发表会议:ICLR 2026
一句话总结
在世界模型的隐空间中做策略梯度优化(而非用真实或模拟环境交互),通过学习 dynamics model 预测下一隐状态和奖励,再用 PPO 在想象轨迹上微调 VLA,实现无需在线交互的离线 RL 后训练。
一、问题与动机
1.1 VLA 的两阶段范式
当前 VLA(Vision-Language-Action)模型的标准训练流程是:
- 预训练:在大规模互联网数据 + 机器人演示数据上做行为克隆(BC)
- 后训练:用强化学习(RL)进一步改进策略
预训练赋予 VLA 通用的视觉-语言-动作理解能力,但 BC 的天花板是数据质量——它只能模仿,无法超越。RL 后训练是突破这一天花板的关键路径。
1.2 在线 RL 的数据瓶颈
现有 VLA RL 后训练方法(如 VLA-RL、RLVLA、TGRPO)依赖在线交互——在模拟器或真实环境中不断采样轨迹。这带来两个核心问题:
- 真实世界数据昂贵:每次试错需要真实机器人执行,成本高、速度慢、有安全风险
- 模拟器保真度不足:高保真模拟器开发成本高,sim-to-real gap 始终存在
1.3 World Model 的思路
如果能学习一个世界模型——从观测和动作预测下一观测和奖励——就可以在"想象空间"中做无限量的 RL 训练,完全绕开在线交互。
但直接在像素空间预测未来帧(如 Sora 式视频预测)计算代价极高,且 VLA 的决策频率(数十 Hz)要求快速推演。
1.4 WMPO 的方案
WMPO 选择在隐空间(latent space)而非像素空间建模世界模型:
- 用编码器将观测压缩为隐表征
- 在隐空间中学习 dynamics model(预测下一隐状态)和 reward model(预测奖励)
- VLA 策略直接在隐空间中用 PPO 优化
这样既保留了世界模型的数据效率优势,又避免了像素级生成的高计算成本。
二、预备知识
2.1 VLA 模型
VLA 模型
2.2 行为克隆(BC)
BC 通过最大化专家演示数据的似然来训练策略:
BC 的根本局限:它只学"像专家一样做",无法从失败中学习,也无法发现数据中未覆盖的更优策略。
2.3 世界模型基础
世界模型学习环境动力学
- 编码器:
,将观测压缩为隐表征 - 动力学模型:
,预测下一隐状态 - 奖励模型:
,预测即时奖励 - 策略优化:在想象轨迹
上做 RL
2.4 PPO 回顾
PPO 通过裁剪似然比限制更新幅度:
其中
三、核心方法:WMPO
3.1 整体架构
WMPO 包含三个模块:
- VLA 策略
:预训练好的 VLA 模型(如 ),作为策略网络 - 隐空间世界模型:编码器 + 动力学模型 + 奖励模型
- 价值网络
:估计状态价值函数,用于计算 GAE 优势
3.2 世界模型的设计
3.2.1 状态表征
WMPO 复用 VLA 自身的视觉编码器提取特征,再通过一个独立的隐空间投影层得到紧凑表征:
这样做的好处:避免从头训练视觉编码器,直接利用 VLA 预训练获得的强视觉理解能力。
3.2.2 Dynamics Model
动力学模型预测下一步隐状态:
具体实现为 MLP,输入为
3.2.3 Reward Model
奖励模型预测给定隐状态和动作的即时奖励:
同样用 MLP 实现,MSE 训练:
奖励标签来自离线数据集中的自动标注(任务完成检测器、关键帧成功检测等)。
3.3 Imagination Rollout
训练好世界模型后,可以完全在隐空间中展开"想象轨迹":
- 从离线数据集采样一个真实初始观测
,编码为 - 用 VLA 策略生成动作
- 用 dynamics model 预测
- 用 reward model 预测
- 重复步骤 2-4 展开
步
这产生一条完整的想象轨迹
3.4 隐空间 PPO 优化
在想象轨迹上做 PPO 更新:
优势估计:使用 GAE(Generalized Advantage Estimation)在想象轨迹上计算:
策略损失:标准 PPO clipped 目标
价值损失:
其中
3.5 训练流程
WMPO 的训练分为两个阶段:
阶段 1:世界模型训练
- 在离线演示数据上训练编码器、dynamics model、reward model
- 损失:
阶段 2:策略优化
- 固定世界模型参数
- 从离线数据采样初始状态,用世界模型展开想象轨迹
- 用 PPO 在想象轨迹上更新 VLA 策略和价值网络
3.6 处理世界模型误差累积
世界模型在多步展开时会出现误差累积(compounding error)。WMPO 采用以下策略缓解:
- 短视野展开:限制想象轨迹长度
(通常 ),避免长时程预测误差爆炸 - 真实初始状态:每条想象轨迹从真实数据的编码开始,而非从上一条想象轨迹的末端继续
- 混合训练:在想象 RL 损失之外加入 BC 正则化,防止策略偏离数据支撑区域过远
四、实验设置
4.1 评估环境
| 环境 | 任务 | 特点 |
|---|---|---|
| LIBERO | LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long | 多子任务组合,多目标泛化 |
| SimplerEnv | 视觉匹配 + 变体泛化 | Google Robot、WidowX 两种机器人构型 |
| 真实机器人 | 桌面操作任务 | Franka Panda 真实部署 |
4.2 基线方法
| 方法 | 类型 | 核心区别 |
|---|---|---|
| BC(SFT) | 纯模仿学习 | 上限受限于数据质量 |
| Naive RL | 在线 PPO | 需要在线交互环境 |
| RLVLA | 在线 PPO + 共享 Actor-Critic | 在线交互 + RL |
| GRAPE | 轨迹级 DPO | 离线偏好优化 |
| Dreamer-v3 | 像素空间世界模型 RL | 从头训练,不利用预训练 VLA |
4.3 VLA 骨干
WMPO 基于 OpenVLA 和
五、实验结果
5.1 LIBERO 基准
WMPO 在 LIBERO 四个子基准上均显著优于 BC 基线:
| 方法 | LIBERO-Spatial | LIBERO-Object | LIBERO-Goal | LIBERO-Long | 平均 |
|---|---|---|---|---|---|
| BC(SFT) | 78.0 | 82.0 | 71.0 | 52.0 | 70.8 |
| GRAPE | 80.4 | 83.6 | 74.0 | 53.2 | 72.8 |
| WMPO | 86.0 | 89.2 | 81.0 | 62.4 | 79.7 |
关键发现:
- WMPO 比 BC 平均提升 ~9 个百分点
- 在最难的 LIBERO-Long(长时域多步操作)上提升最大(+10.4pp)
- 显著优于离线偏好优化方法 GRAPE
5.2 SimplerEnv 泛化评估
在 SimplerEnv 的视觉匹配和变体泛化设置下:
| 方法 | Visual Matching | Variant Aggregation | 平均 |
|---|---|---|---|
| BC(SFT) | 36.7 | 29.8 | 33.3 |
| WMPO | 42.4 | 36.2 | 39.3 |
WMPO 在跨环境泛化上也有一致提升,说明隐空间 RL 不只是过拟合训练环境。
5.3 消融实验
想象轨迹长度 的影响
| LIBERO-Spatial | LIBERO-Object | |
|---|---|---|
| 1 | 80.4 | 84.0 |
| 5 | 84.2 | 87.6 |
| 10 | 86.0 | 89.2 |
| 20 | 83.8 | 86.4 |
BC 正则化的必要性
| 设置 | LIBERO-Spatial | LIBERO-Object |
|---|---|---|
| WMPO(无 BC 正则) | 82.0 | 85.4 |
| WMPO(有 BC 正则) | 86.0 | 89.2 |
BC 正则化防止策略在想象空间中"走偏"——这与 model-based RL 中的经典问题一致:策略会 exploit 世界模型的预测误差区域。
世界模型质量的影响
世界模型预测精度与最终策略性能正相关。当 dynamics model 的 MSE 降低 50% 时,策略成功率提升 ~4pp。这说明改进世界模型本身是提升 WMPO 性能的直接杠杆。
5.4 真实机器人验证
在 Franka Panda 桌面操作任务上:
| 任务 | BC 成功率 | WMPO 成功率 |
|---|---|---|
| Pick and Place | 60% | 80% |
| Stack Blocks | 40% | 65% |
WMPO 在真实机器人上同样有效,且不需要任何真实在线 RL 交互——所有 RL 训练都在世界模型的隐空间中完成。
六、类比总结
想象你是一个篮球教练,在训练球员投篮。
行为克隆(BC) 就像只看录像带模仿——球员反复模仿库里的投篮姿势。能学个七八分像,但永远不会超过库里的水平,因为只学了"怎么做"而没学"为什么这样做"。
在线 RL 就像让球员上场打真实比赛来学习——每次投篮得到真实反馈(进或不进),但每次上场都有受伤风险(真实机器人损耗),而且比赛时间有限(交互成本高)。
WMPO 就像在脑海中模拟投篮——教练先帮球员建立一个"篮球物理模型"(世界模型),然后球员可以在脑海中无限次地模拟投篮练习(imagination rollout)。虽然脑中模拟不完全真实(世界模型误差),但只要控制模拟时长(短视野展开),加上偶尔参考录像带校准(BC 正则化),就能有效提升技术。
七、局限性与未来方向
7.1 世界模型的预测瓶颈
隐空间 dynamics model 的精度直接决定策略优化的上限。当前 MLP 实现对复杂接触动力学(如柔性物体操作、多体碰撞)的建模能力有限。更强的世界模型架构(如基于 Transformer 的序列预测、或结合视频生成的混合模型)可能进一步提升性能。
7.2 误差累积与长视野规划
尽管短视野展开(
7.3 奖励设计
WMPO 需要离线数据中的奖励标注。对于复杂任务,自动奖励标注本身就是一个挑战。结合 VLM 自动生成奖励(如 TGRPO 的 LLM 奖励设计方案)可能是有价值的扩展。
7.4 与在线 RL 的结合
当前 WMPO 是纯离线方案。将世界模型想象 RL 与少量在线交互结合(Dyna 式架构),利用真实数据持续校正世界模型,可能在数据效率和性能之间取得更好的平衡。
八、个人思考
8.1 与 RISE/WoVR 的对比
WMPO、RISE、WoVR 三篇论文都在探索"世界模型 + RL 后训练 VLA"的方向,但设计思路有显著差异:
| 维度 | WMPO | RISE | WoVR |
|---|---|---|---|
| 世界模型空间 | 隐空间(MLP) | 组合式(VLM + dynamics) | 视频预测模型 |
| 幻觉/误差处理 | 短视野 + BC 正则 | 组合式分解降低复杂度 | 三级幻觉控制(KIR + PACE) |
| RL 算法 | PPO | 优势条件化 | PPO 变体 |
| 策略架构 | 通用 VLA | VLA | |
| 核心创新点 | 隐空间 model-based RL 用于 VLA | 组合式世界模型设计 | 幻觉感知机制 |
WMPO 的方案最为简洁——标准的 model-based RL pipeline 应用到 VLA 上。RISE 和 WoVR 则在世界模型的可靠性上做了更多文章。三者的对比暗示了一个趋势:世界模型 + VLA RL 正在成为一条主要技术路线,不同的创新点集中在如何让世界模型更可靠、如何让策略更好地利用不完美的世界模型。
8.2 隐空间 vs. 像素空间世界模型
WMPO 选择隐空间建模是工程上的务实选择——计算高效、与 VLA 的特征空间对齐。但隐空间丢失了像素级细节,对精细操作(如穿针引线)可能不够。未来可能需要分层世界模型:高层隐空间做粗粒度规划,低层像素/点云空间做精细控制。
8.3 BC 正则化的双刃剑
WMPO 的 BC 正则化防止策略过度 exploit 世界模型,但同时也限制了策略超越演示数据的空间。如何动态调节 BC 正则化的强度(类似 TACO 的 in-support 约束思想),让策略在可靠区域大胆探索、在不确定区域保守行事,是一个值得深入探索的方向。
九、参考
- Hafner et al., "Mastering Diverse Domains through World Models," arXiv 2301.04104, 2023. — Dreamer-v3
- Black et al., "
: A Vision-Language-Action Flow Model for General Robot Control," 2024. — - Zhai et al., "Fine-tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning," NeurIPS 2024. — VLA-RL 先驱
- Zhang et al., "GRAPE: Generalizing Robot Policy via Preference Alignment," 2025. — 轨迹级偏好优化
- Wei et al., "RISE: Robotic Imagination for Self Evolution of VLA Models," 2026. — 组合式世界模型 RL
- Sun et al., "WoVR: World Model-Enhanced VLA Reinforcement Learning," 2026. — 幻觉感知世界模型 RL