Skip to content

CoWVLA:在潜在运动空间中进行世界模型思考的 VLA

论文Chain of World: World Model Thinking in Latent Motion

作者:Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Wei Chen, Tonghua Su, Baorui Ma

机构:哈尔滨工业大学、理想汽车(Li Auto)、BAAI、UNSW、北京大学

发布时间:2026年3月

发表会议:CVPR 2026

链接arXiv | 项目主页

分类标签VLA 世界模型 潜在动作 结构-运动解耦 Video VAE Chain-of-World LIBERO 95.6%


一句话总结

CoWVLA 提出 "Chain-of-World" 范式,用预训练 Video VAE(VidTwin)将视频段显式解耦为结构潜变量(静态场景布局)和运动潜变量(动态时序信息),VLA 在预训练阶段从指令和首帧推断连续潜在运动链并预测终端帧,微调阶段将潜在动态与离散动作预测联合建模,兼得世界模型的时序推理能力和潜在动作的紧凑性,LIBERO 95.6%、SimplerEnv-WidowX 76.0%、CALVIN ABC→D 4.21。


一、问题与动机

1.1 两种 VLA 预训练范式的不足

范式代表方法优势局限
世界模型WorldVLA、UniVLA、FlowVLA时序连续建模、学习环境演化知识重建完整视觉帧,大量冗余背景像素浪费容量;图像离散化后序列过长,训练低效
潜在动作LAPA、MoTo、TLA紧凑的帧间转移表示,支持无动作标注视频预训练仅建模帧对之间的变化,缺乏时序连续动态建模;只编码"怎么动"而不理解"什么在动、动到哪"

1.2 认知视角的启示

人类对世界的建模是推理运动和交互,而非在记忆中逐像素重建每一帧。理想的世界模型应该同时具备:

  • 运动表示的紧凑性(不浪费在静态背景上)
  • 时序动态的连续性(不局限于帧对)
  • 环境演化的世界知识(理解动作后果)

1.3 CoWVLA 的核心思路

关键洞察:视频生成领域已有成熟的结构-运动解耦技术(CMD、VidTwin),这些模型的运动潜变量空间天然提供了一种紧凑、连续、可解释的动态表示——正好可以作为机器人世界模型的动态先验。

CoWVLA 首次将视频 VAE 的解耦运动空间引入 VLA 预训练:

  1. 用运动潜变量替代完整帧预测,避免冗余背景重建
  2. 运动潜变量覆盖整段视频(16 帧),提供时序连续的动态建模
  3. 同时预测终端关键帧,保留世界模型的环境演化知识

二、核心方法

2.1 整体框架

CoWVLA 由两个模型和三个训练阶段组成:

模型 1:潜在运动提取器(Latent Motion Extractor, LME)——基于 VidTwin 的 Video VAE,将视频段解耦为结构和运动潜变量。

模型 2:VLA 解码器——基于 Emu3(8.5B VLM)的 Transformer 解码器,统一自回归建模多模态序列。

三个阶段:LME 微调 → VLA 预训练 → VLA 协同微调。

2.2 潜在运动提取器

给定视频段 V1:ff=16 帧),编码器生成中间潜变量 zRdz×f×h×w,然后通过两个分支解耦:

结构分支:Q-Former 模块沿时间维度聚合全局语义和低频动态 → zsRds×nq×hs×ws

运动分支:卷积层降维后,分别沿高度和宽度轴做空间平均,提取方向性运动嵌入:

zmh=μh(z)Rdm×f×wm,zmw=μw(z)Rdm×f×hm

两个方向的运动拼接展平为统一运动潜变量:zmRDmDm=f×dm×(hm+wm)=1792

解码器将 zs,zmh,zmw 上采样并求和后重建视频。训练目标遵循标准 VAE 设计:

Lvae=Lrec+λpLp+λGANLGAN+λKLLKL

解耦效果可视化验证:仅用运动潜变量重建时,仅保留机械臂轨迹和细粒度时序动态;仅用结构潜变量重建时,仅保留全局场景布局和物体外观。交叉重建实验进一步证实运动潜变量仅改变动态部分而保持静态结构不变。

2.3 预训练:在潜在运动空间中思考

输入序列:[T,vq1,Q,vqf],其中 T 为指令,vq1vqf 分别为首帧和末帧的离散 token,Q 为可学习的运动查询 token。

Q 通过因果掩码只能注意指令和首帧(防止信息泄露),其隐藏状态经 MLP 预测运动潜变量 z^m

预训练目标:

Lpretrain=z^mzm22+x{1,f}CE(v^qx,vqx)
  • 第一项:运动查询 Q 必须准确概括从 v1vf 的连续运动
  • 第二项:模型必须形成对未来终端状态的连贯预测

用大白话说:模型看到指令和第一帧后,需要"想象"整段视频的运动过程(zm),并预测最后一帧长什么样——这就是 "Chain of World" 的含义。

2.4 协同微调:对齐潜在动态与动作策略

输入序列扩展为关键帧-动作交替格式:[T,v~q1,Q,Aq1,v~q2,Aq2,,AqN]

关键设计——单一 Q 覆盖全时域Q 仅在首个关键帧后出现一次,作为整个时间窗口的潜在动态聚合器。

协同微调目标包含三项:

Lfinetune=j=1NCE(A^qj,Aqj)+λ1z^mzm(V1:f)22+λ2j=1NCE(v~^qj,v~qj)
  • 第一项:离散动作预测准确性
  • 第二项:运动查询的潜在动态与 LME 提取的真实运动一致
  • 第三项:关键帧预测锚定视觉检查点,确保状态转移一致性

最优配置:λ1=0.1,λ2=0.01(LIBERO 最佳 95.5%)。


三、实验结果

3.1 LIBERO

方法类型SpatialObjectGoalLongAvg.
OpenVLAVLA0.8490.8840.7920.5370.765
π₀VLA0.9680.9880.9580.8520.942
GR00T N1VLA0.9440.9760.9300.9060.939
LAPALatent Action
villa-XLatent Action0.9750.9700.9150.7450.901
TLALatent Action0.9650.9680.9560.9200.952
WorldVLAWorld Model0.8560.8900.8260.5900.791
UniVLAWorld Model0.9600.9920.9320.9140.950
FlowVLAWorld Model0.9320.9500.9160.7260.881
CoWVLAOurs0.9720.9780.9460.9280.956

CoWVLA 以 95.6% 的平均成功率超越所有世界模型和潜在动作方法。

3.2 SimplerEnv-WidowX

方法Stack BlockPut CarrotPut SpoonPut EggplantAvg.
villa-X0.6130.4630.7790.6460.625
UniVLA0.2920.6250.8331.0000.687
FlowVLA0.6250.6250.7081.0000.740
CoWVLA0.6250.6670.7920.9580.760

CoWVLA 在跨域泛化上表现最强(LIBERO 0.956 + SimplerEnv 0.760),而其他方法在两个基准上表现不均衡(如 TLA:0.952/0.480,FlowVLA:0.881/0.740)。

3.3 CALVIN

方法设置12345Avg. Len.
TLAABC→D0.9550.8580.7540.6690.5653.800
UniVLAABC→D0.9720.9020.8260.7410.6614.102
CoWVLAABC→D0.9680.9120.8440.7790.7084.211
UniVLAABCD→D0.9880.9340.8830.8290.7644.398
CoWVLAABCD→D0.9720.9390.8940.8590.8094.473

3.4 消融实验

世界模型 vs. 潜在动作 vs. CoWVLA(LIBERO,统一训练配置):

类别变体Avg.
Latent Actionw/o 预训练0.448
LAPA style0.716
villa-X style0.812
仅结构潜变量0.817
仅运动潜变量0.877
World ModelUniVLA style(6 帧)0.942
CoT-VLA style(首帧+目标帧)0.924
Oursmotion only0.936
motion + terminal frame0.947

关键发现:

  • 运动潜变量(0.877)远优于结构潜变量(0.817),证明动态信息比静态内容对动作生成更重要
  • 世界模型方法整体优于潜在动作方法(有更强的时序建模和环境演化知识)
  • CoWVLA 的 motion + terminal frame 配置(0.947)超越所有单独的世界模型和潜在动作方法

训练效率:CoWVLA(motion & cot)的预训练速度约 8 s/iter、GPU 显存 42 GB,而 UniVLA 为 12 s/iter、76 GB。CoWVLA 在效率-性能权衡上占优。


四、局限性与未来方向

  1. Video VAE 域依赖:运动潜变量的质量取决于预训练 Video VAE 的领域覆盖范围,新环境可能存在分布不匹配
  2. 计算资源需求:依赖 8.5B 参数的 Emu3 VLM 骨架,预训练需要 32 × A800 GPU
  3. 仅验证仿真:主要在 LIBERO、SimplerEnv、CALVIN 仿真环境中验证,真实世界实验仅有小规模杯子抓取

五、个人思考

5.1 "Chain of World" 的本质:运动是世界模型的最小必要信息

CoWVLA 的核心哲学与 DreamVLA 的三类世界知识异曲同工——都在问世界模型应该预测什么。DreamVLA 的答案是动态区域/深度/语义三类结构化知识,CoWVLA 的答案更激进:只需预测运动。消融实验中运动潜变量(0.877)远优于结构潜变量(0.817)支持了这一观点——对于动作生成,"什么在动"比"场景长什么样"重要得多。

5.2 与 UniVLA(潜在动作)的关键区别

CoWVLA 和 UniVLA(Bu et al.)都属于"潜在动作"范式,但差异显著:

CoWVLAUniVLA (Bu et al.)
潜变量来源Video VAE(VidTwin)的运动分支IDM+FDM 帧对编码 + VQ-VAE 离散化
解耦方式结构-运动显式解耦(VAE 架构级别)任务相关-无关两阶段语言引导解耦
时间范围16 帧连续段(时序连续)帧对(约 1 秒间隔)
预训练目标运动潜变量回归 + 终端帧预测潜在动作 token 自回归预测
与世界模型的关系显式融合(预测终端帧)无世界模型成分

CoWVLA 的优势在于时序连续性世界模型属性,UniVLA 的优势在于跨具身无标注视频预训练

5.3 运动潜变量 vs. 完整帧预测的效率权衡

CoWVLA 用 1792 维运动向量替代多帧图像 token,显著减少序列长度(UniVLA style 需要 6 帧图像 token ≈ 数千 token,CoWVLA 仅需一个运动查询 + 首帧和终端帧 token)。预训练速度提升约 33%(8 vs. 12 s/iter),GPU 显存减少 45%(42 vs. 76 GB)。这对于大规模 VLA 预训练具有重要实际意义。

5.4 Video VAE 作为机器人动态先验的新思路

CoWVLA 首次证明视频生成领域的结构-运动解耦 VAE 可以直接作为机器人世界模型的动态先验。这打开了一个新方向:利用视频生成社区训练的大规模 Video VAE(如 Wan 2.1、Open-Sora)的运动潜变量空间来提升机器人策略学习。论文中的对比实验显示 Wan 2.1 VAE 的 latent z 也能达到 0.920(vs. VidTwin 的 0.947),说明通用视频先验确实可迁移到机器人领域。


参考

  • VidTwin(Wang et al., CVPR 2025):CoWVLA 的潜在运动提取器基座,解耦视频结构和动态的 Video VAE
  • UniVLA(Wang et al., ICLR 2026):自回归世界模型 VLA 基线,预测多帧未来图像
  • LAPA(Ye et al., ICLR 2025):帧对潜在动作预训练范式的开创性工作
  • TLA(Bu et al., RSS 2025):任务中心潜在动作解耦,LIBERO 强基线
  • villa-X(Chen et al., 2025):扩展潜在动作到多帧设置
  • DreamVLA(Zhang et al., NeurIPS 2025):三类结构化世界知识预测(动态/深度/语义)
  • FlowVLA(Zhong et al., 2025):视觉思维链运动推理
  • Emu3(Wang et al., 2024):CoWVLA 的 VLM 骨架