CoWVLA:在潜在运动空间中进行世界模型思考的 VLA
论文:Chain of World: World Model Thinking in Latent Motion
作者:Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Wei Chen, Tonghua Su, Baorui Ma
机构:哈尔滨工业大学、理想汽车(Li Auto)、BAAI、UNSW、北京大学
发布时间:2026年3月
发表会议:CVPR 2026
分类标签:
VLA世界模型潜在动作结构-运动解耦Video VAEChain-of-WorldLIBERO 95.6%
一句话总结
CoWVLA 提出 "Chain-of-World" 范式,用预训练 Video VAE(VidTwin)将视频段显式解耦为结构潜变量(静态场景布局)和运动潜变量(动态时序信息),VLA 在预训练阶段从指令和首帧推断连续潜在运动链并预测终端帧,微调阶段将潜在动态与离散动作预测联合建模,兼得世界模型的时序推理能力和潜在动作的紧凑性,LIBERO 95.6%、SimplerEnv-WidowX 76.0%、CALVIN ABC→D 4.21。
一、问题与动机
1.1 两种 VLA 预训练范式的不足
| 范式 | 代表方法 | 优势 | 局限 |
|---|---|---|---|
| 世界模型 | WorldVLA、UniVLA、FlowVLA | 时序连续建模、学习环境演化知识 | 重建完整视觉帧,大量冗余背景像素浪费容量;图像离散化后序列过长,训练低效 |
| 潜在动作 | LAPA、MoTo、TLA | 紧凑的帧间转移表示,支持无动作标注视频预训练 | 仅建模帧对之间的变化,缺乏时序连续动态建模;只编码"怎么动"而不理解"什么在动、动到哪" |
1.2 认知视角的启示
人类对世界的建模是推理运动和交互,而非在记忆中逐像素重建每一帧。理想的世界模型应该同时具备:
- 运动表示的紧凑性(不浪费在静态背景上)
- 时序动态的连续性(不局限于帧对)
- 环境演化的世界知识(理解动作后果)
1.3 CoWVLA 的核心思路
关键洞察:视频生成领域已有成熟的结构-运动解耦技术(CMD、VidTwin),这些模型的运动潜变量空间天然提供了一种紧凑、连续、可解释的动态表示——正好可以作为机器人世界模型的动态先验。
CoWVLA 首次将视频 VAE 的解耦运动空间引入 VLA 预训练:
- 用运动潜变量替代完整帧预测,避免冗余背景重建
- 运动潜变量覆盖整段视频(16 帧),提供时序连续的动态建模
- 同时预测终端关键帧,保留世界模型的环境演化知识
二、核心方法
2.1 整体框架
CoWVLA 由两个模型和三个训练阶段组成:
模型 1:潜在运动提取器(Latent Motion Extractor, LME)——基于 VidTwin 的 Video VAE,将视频段解耦为结构和运动潜变量。
模型 2:VLA 解码器——基于 Emu3(8.5B VLM)的 Transformer 解码器,统一自回归建模多模态序列。
三个阶段:LME 微调 → VLA 预训练 → VLA 协同微调。
2.2 潜在运动提取器
给定视频段
结构分支:Q-Former 模块沿时间维度聚合全局语义和低频动态 →
运动分支:卷积层降维后,分别沿高度和宽度轴做空间平均,提取方向性运动嵌入:
两个方向的运动拼接展平为统一运动潜变量:
解码器将
解耦效果可视化验证:仅用运动潜变量重建时,仅保留机械臂轨迹和细粒度时序动态;仅用结构潜变量重建时,仅保留全局场景布局和物体外观。交叉重建实验进一步证实运动潜变量仅改变动态部分而保持静态结构不变。
2.3 预训练:在潜在运动空间中思考
输入序列:
预训练目标:
- 第一项:运动查询
必须准确概括从 到 的连续运动 - 第二项:模型必须形成对未来终端状态的连贯预测
用大白话说:模型看到指令和第一帧后,需要"想象"整段视频的运动过程(
2.4 协同微调:对齐潜在动态与动作策略
输入序列扩展为关键帧-动作交替格式:
关键设计——单一 Q 覆盖全时域:
协同微调目标包含三项:
- 第一项:离散动作预测准确性
- 第二项:运动查询的潜在动态与 LME 提取的真实运动一致
- 第三项:关键帧预测锚定视觉检查点,确保状态转移一致性
最优配置:
三、实验结果
3.1 LIBERO
| 方法 | 类型 | Spatial | Object | Goal | Long | Avg. |
|---|---|---|---|---|---|---|
| OpenVLA | VLA | 0.849 | 0.884 | 0.792 | 0.537 | 0.765 |
| π₀ | VLA | 0.968 | 0.988 | 0.958 | 0.852 | 0.942 |
| GR00T N1 | VLA | 0.944 | 0.976 | 0.930 | 0.906 | 0.939 |
| LAPA | Latent Action | — | — | — | — | — |
| villa-X | Latent Action | 0.975 | 0.970 | 0.915 | 0.745 | 0.901 |
| TLA | Latent Action | 0.965 | 0.968 | 0.956 | 0.920 | 0.952 |
| WorldVLA | World Model | 0.856 | 0.890 | 0.826 | 0.590 | 0.791 |
| UniVLA | World Model | 0.960 | 0.992 | 0.932 | 0.914 | 0.950 |
| FlowVLA | World Model | 0.932 | 0.950 | 0.916 | 0.726 | 0.881 |
| CoWVLA | Ours | 0.972 | 0.978 | 0.946 | 0.928 | 0.956 |
CoWVLA 以 95.6% 的平均成功率超越所有世界模型和潜在动作方法。
3.2 SimplerEnv-WidowX
| 方法 | Stack Block | Put Carrot | Put Spoon | Put Eggplant | Avg. |
|---|---|---|---|---|---|
| villa-X | 0.613 | 0.463 | 0.779 | 0.646 | 0.625 |
| UniVLA | 0.292 | 0.625 | 0.833 | 1.000 | 0.687 |
| FlowVLA | 0.625 | 0.625 | 0.708 | 1.000 | 0.740 |
| CoWVLA | 0.625 | 0.667 | 0.792 | 0.958 | 0.760 |
CoWVLA 在跨域泛化上表现最强(LIBERO 0.956 + SimplerEnv 0.760),而其他方法在两个基准上表现不均衡(如 TLA:0.952/0.480,FlowVLA:0.881/0.740)。
3.3 CALVIN
| 方法 | 设置 | 1 | 2 | 3 | 4 | 5 | Avg. Len. |
|---|---|---|---|---|---|---|---|
| TLA | ABC→D | 0.955 | 0.858 | 0.754 | 0.669 | 0.565 | 3.800 |
| UniVLA | ABC→D | 0.972 | 0.902 | 0.826 | 0.741 | 0.661 | 4.102 |
| CoWVLA | ABC→D | 0.968 | 0.912 | 0.844 | 0.779 | 0.708 | 4.211 |
| UniVLA | ABCD→D | 0.988 | 0.934 | 0.883 | 0.829 | 0.764 | 4.398 |
| CoWVLA | ABCD→D | 0.972 | 0.939 | 0.894 | 0.859 | 0.809 | 4.473 |
3.4 消融实验
世界模型 vs. 潜在动作 vs. CoWVLA(LIBERO,统一训练配置):
| 类别 | 变体 | Avg. |
|---|---|---|
| Latent Action | w/o 预训练 | 0.448 |
| LAPA style | 0.716 | |
| villa-X style | 0.812 | |
| 仅结构潜变量 | 0.817 | |
| 仅运动潜变量 | 0.877 | |
| World Model | UniVLA style(6 帧) | 0.942 |
| CoT-VLA style(首帧+目标帧) | 0.924 | |
| Ours | motion only | 0.936 |
| motion + terminal frame | 0.947 |
关键发现:
- 运动潜变量(0.877)远优于结构潜变量(0.817),证明动态信息比静态内容对动作生成更重要
- 世界模型方法整体优于潜在动作方法(有更强的时序建模和环境演化知识)
- CoWVLA 的 motion + terminal frame 配置(0.947)超越所有单独的世界模型和潜在动作方法
训练效率:CoWVLA(motion & cot)的预训练速度约 8 s/iter、GPU 显存 42 GB,而 UniVLA 为 12 s/iter、76 GB。CoWVLA 在效率-性能权衡上占优。
四、局限性与未来方向
- Video VAE 域依赖:运动潜变量的质量取决于预训练 Video VAE 的领域覆盖范围,新环境可能存在分布不匹配
- 计算资源需求:依赖 8.5B 参数的 Emu3 VLM 骨架,预训练需要 32 × A800 GPU
- 仅验证仿真:主要在 LIBERO、SimplerEnv、CALVIN 仿真环境中验证,真实世界实验仅有小规模杯子抓取
五、个人思考
5.1 "Chain of World" 的本质:运动是世界模型的最小必要信息
CoWVLA 的核心哲学与 DreamVLA 的三类世界知识异曲同工——都在问世界模型应该预测什么。DreamVLA 的答案是动态区域/深度/语义三类结构化知识,CoWVLA 的答案更激进:只需预测运动。消融实验中运动潜变量(0.877)远优于结构潜变量(0.817)支持了这一观点——对于动作生成,"什么在动"比"场景长什么样"重要得多。
5.2 与 UniVLA(潜在动作)的关键区别
CoWVLA 和 UniVLA(Bu et al.)都属于"潜在动作"范式,但差异显著:
| CoWVLA | UniVLA (Bu et al.) | |
|---|---|---|
| 潜变量来源 | Video VAE(VidTwin)的运动分支 | IDM+FDM 帧对编码 + VQ-VAE 离散化 |
| 解耦方式 | 结构-运动显式解耦(VAE 架构级别) | 任务相关-无关两阶段语言引导解耦 |
| 时间范围 | 16 帧连续段(时序连续) | 帧对(约 1 秒间隔) |
| 预训练目标 | 运动潜变量回归 + 终端帧预测 | 潜在动作 token 自回归预测 |
| 与世界模型的关系 | 显式融合(预测终端帧) | 无世界模型成分 |
CoWVLA 的优势在于时序连续性和世界模型属性,UniVLA 的优势在于跨具身无标注视频预训练。
5.3 运动潜变量 vs. 完整帧预测的效率权衡
CoWVLA 用 1792 维运动向量替代多帧图像 token,显著减少序列长度(UniVLA style 需要 6 帧图像 token ≈ 数千 token,CoWVLA 仅需一个运动查询 + 首帧和终端帧 token)。预训练速度提升约 33%(8 vs. 12 s/iter),GPU 显存减少 45%(42 vs. 76 GB)。这对于大规模 VLA 预训练具有重要实际意义。
5.4 Video VAE 作为机器人动态先验的新思路
CoWVLA 首次证明视频生成领域的结构-运动解耦 VAE 可以直接作为机器人世界模型的动态先验。这打开了一个新方向:利用视频生成社区训练的大规模 Video VAE(如 Wan 2.1、Open-Sora)的运动潜变量空间来提升机器人策略学习。论文中的对比实验显示 Wan 2.1 VAE 的 latent z 也能达到 0.920(vs. VidTwin 的 0.947),说明通用视频先验确实可迁移到机器人领域。
参考
- VidTwin(Wang et al., CVPR 2025):CoWVLA 的潜在运动提取器基座,解耦视频结构和动态的 Video VAE
- UniVLA(Wang et al., ICLR 2026):自回归世界模型 VLA 基线,预测多帧未来图像
- LAPA(Ye et al., ICLR 2025):帧对潜在动作预训练范式的开创性工作
- TLA(Bu et al., RSS 2025):任务中心潜在动作解耦,LIBERO 强基线
- villa-X(Chen et al., 2025):扩展潜在动作到多帧设置
- DreamVLA(Zhang et al., NeurIPS 2025):三类结构化世界知识预测(动态/深度/语义)
- FlowVLA(Zhong et al., 2025):视觉思维链运动推理
- Emu3(Wang et al., 2024):CoWVLA 的 VLM 骨架