Skip to content

DreamVLA:以综合世界知识预测驱动的感知-预测-动作 VLA

论文DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

作者:Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, Xinqiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, Fan Lu, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin

机构:上海交通大学、东方理工、清华大学、Galbot、北京大学、UIUC、中国科学技术大学

发布时间:2025年7月(NeurIPS 2025)

🔗 arXiv | 项目主页 | 代码

分类标签VLA 世界知识预测 结构化注意力 DiT 动作头 CALVIN SOTA


一句话总结

DreamVLA 提出感知-预测-动作闭环框架:在生成动作之前,先通过 <dream> 查询预测三类综合世界知识(动态区域、深度几何、高级语义),并以 block-wise 结构化注意力防止跨类知识泄露,最终用 DiT 扩散动作头生成动作序列,在 CALVIN ABC-D 上达到 4.44 平均任务长度 SOTA,LIBERO 92.6%,真实世界 76.7%。


一、问题与动机

1.1 VLA 缺乏对操作相关世界知识的预测能力

现有 VLA 模型主要基于感知-动作的直接映射:给定当前观测和语言指令,直接回归动作。这种方式缺少对未来世界状态的显式推理——模型不理解"抓起杯子后杯子会被抬起"或"推开抽屉后手臂需要移动到新位置"。

人类在执行操作任务时,会在行动之前想象未来场景的变化,这种"做梦"(dream)能力使得我们能做出更具前瞻性的决策。

1.2 现有未来预测方法的两大局限

此前工作(如 SuSIE、UniPi)尝试预测未来 RGB 图像帧,但存在:

局限说明
信息冗余直接预测像素级未来图像包含大量与操作无关的信息(背景纹理、光照),计算开销大且信号稀释
单一表征仅预测某一种未来表征(如仅预测语义或仅预测光流),无法全面覆盖操作所需的多维度世界变化

1.3 DreamVLA 的核心思路

DreamVLA 的关键洞察:操作相关的世界知识是多维度的——同时包含"哪些区域在运动"(动态区域)、"物体在三维空间中的位置"(深度几何)、"物体是什么"(语义特征)。模型应该有选择性地预测这些与操作最相关的结构化世界知识,而非粗糙地预测整帧像素。


二、预备知识

2.1 三类世界知识的获取

DreamVLA 定义了三类与操作最相关的世界知识,通过离线工具提取监督信号:

知识类型物理含义提取工具监督形式
动态区域哪些像素在随末端执行器 / 可移动物体运动CoTracker(光流模型)二值运动掩码
深度几何各像素的三维距离Depth Anything(单目深度估计)连续深度图
高级语义物体类别与边界的高级理解DINOv2 + SAM特征向量

用大白话说:动态区域告诉模型"盯着手和物体看",深度告诉模型"物体有多远",语义告诉模型"那是什么东西"。三者组合提供了操作任务所需的最小必要世界理解。

2.2 DiT 扩散动作头

DreamVLA 使用 Diffusion Transformer (DiT-B) 作为动作生成器,通过 10 步去噪从高斯噪声生成 action chunk。DiT 以世界知识嵌入和动作嵌入为条件,逐步细化噪声为精确动作序列。


三、核心方法

3.1 整体架构

DreamVLA 由五个模块组成:

  1. 视觉编码器:MAE(Masked Autoencoder),提取时空视觉 patch 表征
  2. 文本编码器:CLIP 文本编码器,提取语言指令嵌入
  3. 状态编码器:Conv + FC 层,编码本体感觉信号(关节角度等)
  4. LLM 主干:GPT-2 Medium,核心推理与世界知识预测
  5. DiT 动作头:DiT-B,以世界知识为条件生成动作

3.2 感知-预测-动作闭环

DreamVLA 的推理分三个阶段:

阶段一:感知(Perception)

将当前观测 ot、语言指令 l、机器人状态 st 分别通过冻结的 MAE、CLIP、可训练的状态编码器编码为 token 序列,输入 GPT-2 主干。

阶段二:预测(Prediction / Dream)

在输入 token 序列末尾附加 <dream> 查询 token(3 组,每组 K=9 个),GPT-2 处理后输出世界知识嵌入 wt+n,分别预测未来的动态区域、深度和语义。

阶段三:动作(Action)

<dream> 查询后附加 <action> 查询 token,聚合世界知识嵌入生成动作条件向量,送入 DiT 动作头,经 10 步去噪生成 n 步动作序列。

3.3 Block-Wise 结构化注意力

这是 DreamVLA 的核心设计。标准的 causal attention 允许所有 <dream> 查询之间相互注意,但这会导致跨类知识泄露——三种不同类型的世界知识(动态、深度、语义)在 attention 中混杂,最终学到的是纠缠的而非解耦的表征。

DreamVLA 的注意力规则:

  • 共享上下文:所有 <dream> 子查询都可以注意视觉 token、语言 token 和状态 token
  • 跨类隔离:不同类型的 <dream> 子查询之间的注意力边被 mask 掉——动态区域查询看不到深度查询和语义查询,反之亦然
  • 同类交互:同类型的 K 个子查询之间可以正常交互
  • 动作聚合<action> 查询可以注意所有 <dream> 查询和共享上下文

用大白话说:三组 dream 查询各做各的"梦",各自从共享的视觉-语言上下文中提取自己关心的信息,互不干扰;最后 action 查询负责把三个梦的结果综合起来做决策。

消融实验显示,这种结构化注意力比标准 causal attention 带来 +0.69 平均任务长度的巨大提升(3.75 → 4.44),说明防止知识泄露对保持表征质量至关重要。

3.4 三类世界知识的训练目标

动态区域预测——基于 ELBO 的生成式损失:

Ldyn=1|D|iEzQϕ(z|xi)[logPψ((xi)M|z)]

其中 Qϕ 是编码器分布,(xi)M 是运动掩码区域的像素。模型学习从 dream 嵌入中重建哪些区域在运动。

深度预测——尺度归一化 MSE 损失:

Ldepth=1HW(d^αd)2,α=d^dd2

尺度因子 α 通过最小二乘对齐消除深度绝对尺度的歧义,只要求模型预测正确的相对深度结构。

语义预测——InfoNCE 对比损失:

Lsem=logexp(c^c/τ)kexp(c^ck/τ)

其中正样本 c 是对应位置的 DINOv2/SAM 特征,负样本 ck 通过空间位移获取。模型学习在特征空间中对齐而非直接回归高维语义向量。

DiT 动作损失——标准 DDPM 噪声预测:

LDiT=Eτ,ϵϵϵθ(α¯τa+1α¯τϵ, τ, c)2

总损失

L=LDiT+λdynLdyn+λdepthLdepth+λsemLsem

其中 λdyn=0.1λdepth=0.001λsem=0.1

3.5 训练细节

参数
优化器AdamW
初始学习率103
权重衰减104
学习率调度Cosine + 5% 线性预热
Batch size64
Epochs20
硬件8 × NVIDIA A800
每类查询数 K9
DiT 去噪步数10

预训练阶段使用 CALVIN 无语言标注数据 + 完整 DROID 数据集,然后在目标数据集上微调。


四、实验结果

4.1 CALVIN ABC-D(长时域多步操作)

方法Task 1Task 2Task 3Task 4Task 5Avg. Len
GR-185.4%71.2%59.6%49.7%40.1%3.06
3D Diffusor Actor92.2%78.7%63.9%51.2%41.2%3.27
OpenVLA91.3%77.8%62.0%52.1%43.5%3.27
π₀93.8%85.0%76.7%68.1%59.9%3.92
UP-VLA92.8%86.5%81.5%76.9%69.9%4.08
RoboVLM98.0%93.6%85.4%77.8%70.4%4.25
Seer96.3%91.6%86.1%80.3%74.0%4.28
VPP95.7%91.2%86.3%81.0%75.0%4.29
DreamVLA98.2%94.6%89.5%83.4%78.1%4.44

DreamVLA 在所有 5 个链式任务上均达到最高成功率,尤其在 Task 5(连续完成 5 个子任务)上以 78.1% 大幅领先,体现出强大的长时域一致性。

4.2 LIBERO(四子集)

方法SpatialObjectGoalLongAverage
Diffusion Policy78.3%92.5%68.3%50.5%72.4%
Octo78.9%85.7%84.6%51.1%75.1%
OpenVLA84.7%88.4%79.2%53.7%76.5%
SpatialVLA88.2%89.9%78.6%55.5%78.1%
DreamVLA97.5%94.0%89.5%89.5%92.6%

DreamVLA 在 LIBERO-Long(长时域任务)上从基线 50-55% 提升至 89.5%,提升幅度最为显著,佐证了世界知识预测对长时域决策的增益。

4.3 真实世界实验

使用 Franka Panda 机械臂 + 两个 RealSense D415 相机,涵盖抓取、放置、抽屉操作三类任务:

任务类型DreamVLADiffusion PolicyOctoOpenVLA
Pick(平均)82.5%60.0%55.0%45.0%
Place(平均)80.0%55.0%45.0%25.0%
Drawer(平均)67.5%37.5%35.0%35.0%
整体76.7%50.8%45.0%35.0%

DreamVLA 在真实世界中整体超越最强基线 Diffusion Policy 约 26 个百分点

4.4 消融实验

各类世界知识的增量贡献(CALVIN ABC-D Avg. Len):

配置Avg. Len增量
Vanilla VLA(无预测)3.64
+ 动态区域4.32+0.68(最大贡献)
+ 深度4.40+0.08
+ 语义4.44+0.04

动态区域预测是最关键的知识类型,贡献了绝大部分增益。这符合直觉——操作任务中最重要的信息是"什么在动"。

关键设计选择的消融

对比Avg. Len
辅助任务(当前帧重建) vs. 未来预测4.14 vs. 4.44(+0.30)
光流监督 vs. 动态区域监督4.23 vs. 4.44(+0.21)
标准 Causal Attention vs. 结构化注意力3.75 vs. 4.44(+0.69)
共享查询 vs. 分离查询4.17 vs. 4.44(+0.27)

结构化注意力是最重要的设计选择(+0.69),说明防止跨类知识泄露对保持表征解耦至关重要。

查询数量 K 的影响K=4 → 4.32;K=94.44(最优);K=16 → 4.33(收益递减)。


五、局限性与未来方向

论文指出的主要局限:

  1. 仅限平行夹爪:当前实验仅涉及双指夹爪操作,未验证在灵巧手等更复杂末端执行器上的表现
  2. RGB 为中心:输入仅使用 RGB 图像,未融合点云或触觉等其他模态
  3. 场景多样性有限:实验场景的几何形状和材质种类较少

未来方向包括:灵巧手操作 + 接触标注、3D 点云融合、触觉数据融合,以及 on-policy 微调以提升长时域鲁棒性。


六、个人思考

6.1 "Dream before Act" 范式的演进

DreamVLA 与 FutureVLA 同属"预测未来 → 再行动"范式,但路线不同:

DreamVLAFutureVLA
预测目标三类结构化世界知识(动态/深度/语义)联合视觉-运动潜在嵌入
解耦方式Block-wise 结构化注意力(显式隔离)双流解耦监督(损失级别分离)
预测空间特征空间(各自的解码头)潜在空间(3D-VAE 编码)
主干GPT-2 Medium(轻量)Qwen2.5-VL(重量级 VLM)

DreamVLA 的优势在于显式定义了操作相关的三类知识,使得模型"梦"的内容有明确的物理含义;FutureVLA 则更灵活,让模型自己学什么是有用的未来信息。两种思路互补——DreamVLA 的 block-wise attention 设计可以启发 FutureVLA 对双流做更强的解耦。

6.2 结构化注意力的通用价值

消融实验中,结构化注意力带来的 +0.69 增益甚至超过了增加任何单类世界知识的收益。这提示我们:在多任务/多目标预测中,表征解耦可能比增加预测目标更重要。这一发现对其他多目标 VLA 设计也有参考价值。

6.3 动态区域 vs. 光流

DreamVLA 发现直接预测光流(连续向量场)不如预测动态区域(二值掩码)效果好(4.23 vs. 4.44)。这可能因为光流的精确数值对动作生成并不必要——模型只需知道"哪里在动"而不需要知道"动多快、动多远"。这种信息瓶颈反而帮助模型聚焦于最关键的信号。

6.4 轻量主干的启示

DreamVLA 使用 GPT-2 Medium 这样相对轻量的主干就在 CALVIN 上达到 SOTA,说明世界知识预测的框架设计比主干模型大小更重要。这与 VLA 领域"堆参数量"的趋势形成有趣对照。


参考

  • FutureVLA:联合视觉-运动预测建模,双流解耦先验增强 VLA,JVPM 框架
  • SuSIE / UniPi:预测未来 RGB 图像帧作为子目标引导动作
  • CoTracker:密集点追踪模型,DreamVLA 用于生成动态区域监督
  • Depth Anything:单目深度估计基础模型,DreamVLA 用于生成深度监督
  • DINOv2 / SAM:视觉基础模型,DreamVLA 用于生成语义特征监督
  • π₀:Flow Matching VLA 基础模型,DreamVLA 在 CALVIN 上大幅超越
  • OpenVLA:开源 VLA 基线,DreamVLA 的重要比较对象