World-VLA-Loop:视频世界模型与 VLA 策略的闭环联合学习
论文:World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy
作者:Xiaokang Liu*, Zechen Bai*, Hai Ci, Kevin Yuchen Ma, Mike Zheng Shou
机构:Show Lab, National University of Singapore
时间:2026 年 2 月
一句话总结
World-VLA-Loop 提出世界模型与 VLA 策略的闭环联合优化范式:基于 Cosmos-Predict 2 构建带奖励预测头的 state-aware 视频世界模型,用 SANS(Success and Near-Success)数据集提升动作跟随精度,在虚拟环境中通过 GRPO 做 RL 后训练 VLA,然后将策略的失败 rollout 反馈回来迭代改进世界模型——两轮迭代后真实世界成功率从 13.3% 提升至 50.0%。
一、问题与动机
1.1 世界模型做 VLA RL 的瓶颈
RL 后训练已被证明能显著提升 VLA 性能,但真实世界 RL 交互成本极高。用视频世界模型作为虚拟环境是一条有前景的路线(参见 WMPO、WoVR、RISE),但现有视频世界模型存在两个关键缺陷:
- 动作跟随精度差:模型倾向于依赖视觉先验而非真正响应动作条件。如 Cosmos-Predict 2 在接收到错误动作时,仍然"幻觉"出成功结果——夹爪朝物体"吸"过去而非如实反映抓取失败
- 奖励信号不可靠:依赖外部 VLM 或启发式代理奖励,精度不足以支撑稳定 RL
1.2 核心洞察:世界模型和策略可以互相改进
World-VLA-Loop 的关键观察是:VLA 策略在训练过程中行为分布不断变化,世界模型需要覆盖这些变化的状态才能保持可靠。反过来,策略产生的失败 rollout 正好是世界模型最需要学习的数据。这构成了一个天然的闭环:
- 世界模型 → 策略:提供虚拟环境做 RL 后训练
- 策略 → 世界模型:提供新的失败/成功轨迹增强训练数据
二、预备知识
2.1 动作条件视频世界模型
给定初始
Cosmos-Predict 2 使用 Diffusion Transformer(DiT)骨架自回归预测视频块。动作通过 MLP 映射为潜空间嵌入,加到扩散时间步嵌入上注入 DiT。
2.2 GRPO 策略优化
World-VLA-Loop 使用 GRPO(Group Relative Policy Optimization)做策略更新。对一组 rollout
使用 clipped objective 更新策略,避免大幅度更新。
三、核心方法
World-VLA-Loop 包含四个阶段:(1) 构建 SANS 数据集;(2) 训练 state-aware 视频世界模型;(3) 在世界模型中做 VLA RL 后训练;(4) 部署策略、收集新数据、迭代优化。
3.1 SANS 数据集:成功 + 近成功轨迹
现有机器人数据集几乎只包含成功轨迹(因为主要服务于模仿学习),这导致世界模型无法准确模拟失败情况。World-VLA-Loop 引入 SANS(Success and Near-Success) 数据集,核心是近成功轨迹——几乎完成目标但因末端执行器位置的微小偏差而失败的轨迹。
近成功数据的两个关键作用:
- 迫使模型学习细粒度差异:近成功与成功轨迹在视觉上极其相似,模型必须关注空间动力学的精细差异才能区分
- 覆盖真实失败模式:策略在部署中最常出现的就是这种"差一点"的失败
数据收集方式:
| 环境 | 成功轨迹 | 近成功轨迹 |
|---|---|---|
| ManiSkill(23 任务) | 控制策略 + GT 物体位姿 | 扰动位姿生成失败 |
| LIBERO | 演示数据 | OpenVLA-OFT 的失败 rollout |
| 真实世界 | 人工遥操作 | 遥操作 + 策略失败 rollout |
ManiSkill 上共收集约 35k video-action pairs 用于世界模型预训练。LIBERO 和真实世界每个任务仅需约 50 条成功 + 50 条近成功轨迹做微调。
3.2 State-aware 视频世界模型
基于 Cosmos-Predict 2 构建,核心创新是联合预测视频帧和奖励信号。
3.2.1 奖励预测头
在 DiT 生成扩散潜码
与 flow matching 损失联合训练:
其中
联合训练的双重优势:
- 奖励更准确:基于生成的视觉潜码预测奖励,与视觉结果内在对齐,比外部 VLM 判断或启发式代理更可靠
- 反向提升视频质量:奖励监督迫使生成器更好地区分成功/失败动作的视觉结果,改善动作跟随精度
3.2.2 训练流程
两阶段训练:
- 预训练:在 ManiSkill SANS 数据集(35k 轨迹)上从 Cosmos-Predict 2 检查点迁移学习,获得基础的机器人动作条件化能力
- 微调:对新的下游任务,只需少量数据(< 100 条成功 + 近成功轨迹)即可适配
3.3 世界模型中的 VLA RL 后训练
使用 OpenVLA-OFT 作为基础 VLA,采用 SimpleVLA-RL 的训练框架,但将物理仿真器替换为学习的世界模型。
闭环交互:世界模型根据策略输出的动作自回归生成下一步观测,反馈给策略做后续预测。奖励由世界模型的奖励头提供,通过阈值化(
统一 action chunk 大小为 24,即每次预测 24 帧视频。
3.4 迭代联合优化:闭环的核心
这是 World-VLA-Loop 最关键的设计——世界模型和策略的协同进化循环:
- 用初始 SANS 数据训练世界模型
- 在
中做 RL,获得改进后的策略 - 部署
到真实环境,收集新的成功和失败 rollout - 用新数据增强 SANS 数据集,训练
- 在
中从 SFT 基线重新做 RL,获得 - 重复...
为什么有效:
- 第一轮世界模型可能在某些边界情况上不准确(如策略用杯子背面抓取时,世界模型仍预测成功)
- 策略在这些不准确的地方会发生 reward hacking
- 将这些失败轨迹反馈给世界模型后,第二轮世界模型能正确建模这些边界情况
- 在改进后的世界模型中训练的策略不再能 hack,被迫学习真正有效的行为
四、实验结果
4.1 世界模型质量
视频生成质量(Table 1):
| 场景 | SSIM ↑ | PSNR ↑ | LPIPS ↓ | MSE ↓ |
|---|---|---|---|---|
| LIBERO | 0.90 | 26.57 | 0.031 | 0.0024 |
| Real-World | 0.91 | 29.61 | 0.059 | 0.0019 |
| 平均 | 0.91 | 28.09 | 0.045 | 0.0022 |
结果对齐度(Table 2,每任务评估 20 个样本):
| 指标 | LIBERO-Object | LIBERO-Goal | LIBERO-Spatial | Real-World |
|---|---|---|---|---|
| Visual Alignment | 85%/95% | 90%/75% | 85%/95% | 90% |
| Reward Alignment | 75%/90% | 85%/75% | 90%/95% | 95% |
平均 Visual Alignment 87.9%,Reward Alignment 86.4%,两者高度一致,说明奖励头的判断与人类视觉判断对齐。
4.2 VLA RL 后训练效果
LIBERO + Real-World 成功率(Table 3):
| 模型 | Object T1 | Object T2 | Goal T1 | Goal T2 | Spatial T1 | Spatial T2 | Real-World |
|---|---|---|---|---|---|---|---|
| SFT Base | 73.9% | 73.9% | 91.9% | 86.1% | 83.9% | 87.9% | 13.3% |
| RL Post-Training | 97.9% | 91.9% | 100% | 96.2% | 93.9% | 94.0% | 36.7% |
| 提升 | +24.0% | +18.0% | +8.1% | +10.1% | +10.0% | +6.1% | +23.4% |
LIBERO 平均提升 +12.7%,真实世界 +23.4%。
迭代优化效果(真实世界,Figure 1b):
| 阶段 | 成功率 |
|---|---|
| SFT 基线 | 13.3% |
| 第 1 轮 RL | 36.7%(+23.4%) |
| 第 2 轮 RL(迭代) | 50.0%(+13.3%) |
两轮迭代累计提升 +36.7%,验证了闭环联合优化的有效性。
4.3 消融实验
世界模型设计消融(Table 4,LIBERO-Object):
| 消融变体 | Task 1 | Task 2 |
|---|---|---|
| w/o 近成功数据 | 60% | 65% |
| w/o 奖励预测头 | 60% | 70% |
| 用 Qwen3-VL 替代奖励头 | 50% | 55% |
| 完整 World-VLA-Loop(Visual) | 85% | 95% |
| 完整 World-VLA-Loop(Reward) | 75% | 90% |
关键发现:
- 奖励预测头至关重要:去掉后 Visual Alignment 下降约 30%,说明联合训练不仅提供奖励,还显著提升视频生成的成功/失败区分能力
- 近成功数据不可或缺:去掉后对齐度同样大幅下降,验证了 SANS 数据集的核心价值
- 外部 VLM 奖励不可靠:Qwen3-VL 作为 success/failure 判断器仅 50-55% 对齐度,存在严重幻觉——世界模型生成的帧对 VLM 而言是 OOD 输入
4.4 效率分析
- 世界模型单次 24 帧生成耗时约 7 秒(NVIDIA H100)
- SimpleVLA-RL 约 50 步优化收敛
- 单个任务 RL 训练约 30 小时完成
五、局限性与未来方向
- 长时域任务受限:当前自回归视频模型在超过 200 帧(~20 秒)后出现严重质量漂移,LIBERO-100 的长时域任务未能评估
- 稀疏奖励:仅使用最终状态的二值成功信号,未探索分步子目标的中间奖励
- 迭代效率:每轮迭代需要真实世界部署收集新数据,仍有人工成本
- 基线策略较弱:真实世界 SFT 基线仅 13.3%,说明 OpenVLA-OFT 在该场景的初始能力有限
六、个人思考
6.1 与 WoVR 的互补关系
World-VLA-Loop 和 WoVR 是同期工作,都用视频世界模型做 VLA RL,但关注点不同:
| 维度 | World-VLA-Loop | WoVR |
|---|---|---|
| 核心创新 | 闭环迭代联合优化 | 三级幻觉控制 |
| 世界模型骨架 | Cosmos-Predict 2 | Wan2.2-TI2V-5B |
| 奖励设计 | 内嵌奖励预测头 | 外部二值分类器 |
| 数据策略 | SANS 近成功数据 | 噪声上下文增强 |
| 幻觉应对 | 迭代数据增强 | KIR + PACE |
| 长程能力 | 受限(~200 帧) | 较强(~512 帧) |
World-VLA-Loop 的"闭环"思想更优雅——让数据驱动世界模型改进,而非纯架构层面的防御。但 WoVR 的 KIR 和首帧锚定等技术对长程稳定性更有效。两者的结合(SANS 数据 + 幻觉控制 + 闭环迭代)可能是更完整的方案。
6.2 奖励预测头 vs 外部奖励模型
论文最有说服力的消融是:去掉奖励头后视频生成质量也下降 ~30%。这说明奖励监督是一种有效的生成正则化——迫使模型真正理解动作的因果后果,而非仅仅生成视觉上合理的序列。这一洞察对所有视频世界模型的训练都有启发:即使不需要奖励信号,加入结果标签的辅助损失也可能提升生成精度。
6.3 SANS 数据的通用价值
近成功数据的概念不限于世界模型训练。对于 VLA 的模仿学习、偏好学习(如 GRAPE)、甚至 reward model 训练,decision boundary 附近的数据("差一点"的失败)都极其宝贵。当前社区的数据收集范式过于偏重成功演示,SANS 的思路值得推广。
6.4 迭代闭环 vs 一次性训练
与 WoVR 的 PACE(也是策略-模型协同进化)相比,World-VLA-Loop 的迭代更"重"——每轮需要真实世界部署收集数据。PACE 是在同一轮 RL 中在线更新世界模型,更轻量但可能更新幅度有限。真正理想的方案可能是:PACE 式的在线微调 + 周期性的真实世界数据增强。
6.5 与 GigaBrain 的对比视角
GigaBrain 也用视频世界模型 + 迭代训练,但它的 RAMP 框架将世界模型用于优势估计(条件化 VLA),而 World-VLA-Loop 将世界模型用作完整的交互式仿真器。前者更轻量(不需要闭环 rollout),后者更灵活(支持完整的 on-policy 探索)。
参考
- WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL:同期工作,幻觉感知的世界模型 RL,关注三级可靠性保障
- RISE: Self-Improving Robot Policy with Compositional World Model:组合式世界模型(动力学 + 价值)在想象空间做 RL
- WMPO: World Model-Based Policy Optimization for VLA:直接用世界模型做 imagination rollout + PPO
- GigaBrain: World-Model-Conditioned Policy Optimization:世界模型预测未来状态 + 价值条件化 VLA
- SimpleVLA-RL: Scaling VLA Training via RL:World-VLA-Loop 的 RL 训练框架基础
- OpenVLA-OFT: Fine-Tuning VLA Models:基础 VLA 策略
- VLA-RFT: Vision-Language-Action Reinforcement Fine-Tuning:用视频世界模型 + verified reward + GRPO 微调 VLA