DreamVLA：以综合世界知识预测驱动的感知-预测-动作 VLA

论文：DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
作者：Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, Xinqiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, Fan Lu, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
机构：上海交通大学、东方理工、清华大学、Galbot、北京大学、UIUC、中国科学技术大学
发布时间：2025年7月（NeurIPS 2025）
🔗 arXiv | 项目主页 | 代码
分类标签：VLA 世界知识预测 结构化注意力 DiT 动作头 CALVIN SOTA

一句话总结

DreamVLA 提出感知-预测-动作闭环框架：在生成动作之前，先通过 <dream> 查询预测三类综合世界知识（动态区域、深度几何、高级语义），并以 block-wise 结构化注意力防止跨类知识泄露，最终用 DiT 扩散动作头生成动作序列，在 CALVIN ABC-D 上达到 4.44 平均任务长度 SOTA，LIBERO 92.6%，真实世界 76.7%。

一、问题与动机

1.1 VLA 缺乏对操作相关世界知识的预测能力

现有 VLA 模型主要基于感知-动作的直接映射：给定当前观测和语言指令，直接回归动作。这种方式缺少对未来世界状态的显式推理——模型不理解"抓起杯子后杯子会被抬起"或"推开抽屉后手臂需要移动到新位置"。

人类在执行操作任务时，会在行动之前想象未来场景的变化，这种"做梦"（dream）能力使得我们能做出更具前瞻性的决策。

1.2 现有未来预测方法的两大局限

此前工作（如 SuSIE、UniPi）尝试预测未来 RGB 图像帧，但存在：

局限	说明
信息冗余	直接预测像素级未来图像包含大量与操作无关的信息（背景纹理、光照），计算开销大且信号稀释
单一表征	仅预测某一种未来表征（如仅预测语义或仅预测光流），无法全面覆盖操作所需的多维度世界变化

1.3 DreamVLA 的核心思路

DreamVLA 的关键洞察：操作相关的世界知识是多维度的——同时包含"哪些区域在运动"（动态区域）、"物体在三维空间中的位置"（深度几何）、"物体是什么"（语义特征）。模型应该有选择性地预测这些与操作最相关的结构化世界知识，而非粗糙地预测整帧像素。

二、预备知识

2.1 三类世界知识的获取

DreamVLA 定义了三类与操作最相关的世界知识，通过离线工具提取监督信号：

知识类型	物理含义	提取工具	监督形式
动态区域	哪些像素在随末端执行器 / 可移动物体运动	CoTracker（光流模型）	二值运动掩码
深度几何	各像素的三维距离	Depth Anything（单目深度估计）	连续深度图
高级语义	物体类别与边界的高级理解	DINOv2 + SAM	特征向量

用大白话说：动态区域告诉模型"盯着手和物体看"，深度告诉模型"物体有多远"，语义告诉模型"那是什么东西"。三者组合提供了操作任务所需的最小必要世界理解。

2.2 DiT 扩散动作头

DreamVLA 使用 Diffusion Transformer (DiT-B) 作为动作生成器，通过 10 步去噪从高斯噪声生成 action chunk。DiT 以世界知识嵌入和动作嵌入为条件，逐步细化噪声为精确动作序列。

三、核心方法

3.1 整体架构

DreamVLA 由五个模块组成：

视觉编码器：MAE（Masked Autoencoder），提取时空视觉 patch 表征
文本编码器：CLIP 文本编码器，提取语言指令嵌入
状态编码器：Conv + FC 层，编码本体感觉信号（关节角度等）
LLM 主干：GPT-2 Medium，核心推理与世界知识预测
DiT 动作头：DiT-B，以世界知识为条件生成动作

3.2 感知-预测-动作闭环

DreamVLA 的推理分三个阶段：

阶段一：感知（Perception）

将当前观测 $o_{t}$ 、语言指令 $l$ 、机器人状态 $s_{t}$ 分别通过冻结的 MAE、CLIP、可训练的状态编码器编码为 token 序列，输入 GPT-2 主干。

阶段二：预测（Prediction / Dream）

在输入 token 序列末尾附加 <dream> 查询 token（3 组，每组 $K = 9$ 个），GPT-2 处理后输出世界知识嵌入 $w_{t + n}$ ，分别预测未来的动态区域、深度和语义。

阶段三：动作（Action）

在 <dream> 查询后附加 <action> 查询 token，聚合世界知识嵌入生成动作条件向量，送入 DiT 动作头，经 10 步去噪生成 $n$ 步动作序列。

3.3 Block-Wise 结构化注意力

这是 DreamVLA 的核心设计。标准的 causal attention 允许所有 <dream> 查询之间相互注意，但这会导致跨类知识泄露——三种不同类型的世界知识（动态、深度、语义）在 attention 中混杂，最终学到的是纠缠的而非解耦的表征。

DreamVLA 的注意力规则：

共享上下文：所有 <dream> 子查询都可以注意视觉 token、语言 token 和状态 token
跨类隔离：不同类型的 <dream> 子查询之间的注意力边被 mask 掉——动态区域查询看不到深度查询和语义查询，反之亦然
同类交互：同类型的 $K$ 个子查询之间可以正常交互
动作聚合：<action> 查询可以注意所有 <dream> 查询和共享上下文

用大白话说：三组 dream 查询各做各的"梦"，各自从共享的视觉-语言上下文中提取自己关心的信息，互不干扰；最后 action 查询负责把三个梦的结果综合起来做决策。

消融实验显示，这种结构化注意力比标准 causal attention 带来 +0.69 平均任务长度的巨大提升（3.75 → 4.44），说明防止知识泄露对保持表征质量至关重要。

3.4 三类世界知识的训练目标

动态区域预测——基于 ELBO 的生成式损失：

L_{dyn} = \frac{1}{| D |} \sum_{i} E_{z \sim Q_{ϕ} (z | x_{i})} [- \log P_{ψ} ((x_{i})_{M} | z)]

其中 $Q_{ϕ}$ 是编码器分布， $(x_{i})_{M}$ 是运动掩码区域的像素。模型学习从 dream 嵌入中重建哪些区域在运动。

深度预测——尺度归一化 MSE 损失：

L_{depth} = \frac{1}{H W} \sum {(\hat{d} - α \cdot d)}^{2}, α = \frac{\sum \hat{d} \cdot d}{\sum d^{2}}

尺度因子 $α$ 通过最小二乘对齐消除深度绝对尺度的歧义，只要求模型预测正确的相对深度结构。

语义预测——InfoNCE 对比损失：

L_{sem} = - \log \frac{\exp ({\hat{c}}^{⊤} c / τ)}{\sum_{k} \exp ({\hat{c}}^{⊤} c_{k} / τ)}

其中正样本 $c$ 是对应位置的 DINOv2/SAM 特征，负样本 $c_{k}$ 通过空间位移获取。模型学习在特征空间中对齐而非直接回归高维语义向量。

DiT 动作损失——标准 DDPM 噪声预测：

L_{DiT} = E_{τ, ϵ} {‖ ϵ - ϵ_{θ} (\sqrt{{\bar{α}}_{τ}} \cdot a + \sqrt{1 - {\bar{α}}_{τ}} \cdot ϵ, τ, c) ‖}^{2}

总损失：

L = L_{DiT} + λ_{dyn} L_{dyn} + λ_{depth} L_{depth} + λ_{sem} L_{sem}

其中 $λ_{dyn} = 0.1$ ， $λ_{depth} = 0.001$ ， $λ_{sem} = 0.1$ 。

3.5 训练细节

参数	值
优化器	AdamW
初始学习率	$10^{- 3}$
权重衰减	$10^{- 4}$
学习率调度	Cosine + 5% 线性预热
Batch size	64
Epochs	20
硬件	8 × NVIDIA A800
每类查询数 $K$	9
DiT 去噪步数	10

预训练阶段使用 CALVIN 无语言标注数据 + 完整 DROID 数据集，然后在目标数据集上微调。

四、实验结果

4.1 CALVIN ABC-D（长时域多步操作）

方法	Task 1	Task 2	Task 3	Task 4	Task 5	Avg. Len
GR-1	85.4%	71.2%	59.6%	49.7%	40.1%	3.06
3D Diffusor Actor	92.2%	78.7%	63.9%	51.2%	41.2%	3.27
OpenVLA	91.3%	77.8%	62.0%	52.1%	43.5%	3.27
π₀	93.8%	85.0%	76.7%	68.1%	59.9%	3.92
UP-VLA	92.8%	86.5%	81.5%	76.9%	69.9%	4.08
RoboVLM	98.0%	93.6%	85.4%	77.8%	70.4%	4.25
Seer	96.3%	91.6%	86.1%	80.3%	74.0%	4.28
VPP	95.7%	91.2%	86.3%	81.0%	75.0%	4.29
DreamVLA	98.2%	94.6%	89.5%	83.4%	78.1%	4.44

DreamVLA 在所有 5 个链式任务上均达到最高成功率，尤其在 Task 5（连续完成 5 个子任务）上以 78.1% 大幅领先，体现出强大的长时域一致性。

4.2 LIBERO（四子集）

方法	Spatial	Object	Goal	Long	Average
Diffusion Policy	78.3%	92.5%	68.3%	50.5%	72.4%
Octo	78.9%	85.7%	84.6%	51.1%	75.1%
OpenVLA	84.7%	88.4%	79.2%	53.7%	76.5%
SpatialVLA	88.2%	89.9%	78.6%	55.5%	78.1%
DreamVLA	97.5%	94.0%	89.5%	89.5%	92.6%

DreamVLA 在 LIBERO-Long（长时域任务）上从基线 50-55% 提升至 89.5%，提升幅度最为显著，佐证了世界知识预测对长时域决策的增益。

4.3 真实世界实验

使用 Franka Panda 机械臂 + 两个 RealSense D415 相机，涵盖抓取、放置、抽屉操作三类任务：

任务类型	DreamVLA	Diffusion Policy	Octo	OpenVLA
Pick（平均）	82.5%	60.0%	55.0%	45.0%
Place（平均）	80.0%	55.0%	45.0%	25.0%
Drawer（平均）	67.5%	37.5%	35.0%	35.0%
整体	76.7%	50.8%	45.0%	35.0%

DreamVLA 在真实世界中整体超越最强基线 Diffusion Policy 约 26 个百分点。

4.4 消融实验

各类世界知识的增量贡献（CALVIN ABC-D Avg. Len）：

配置	Avg. Len	增量
Vanilla VLA（无预测）	3.64	—
+ 动态区域	4.32	+0.68（最大贡献）
+ 深度	4.40	+0.08
+ 语义	4.44	+0.04

动态区域预测是最关键的知识类型，贡献了绝大部分增益。这符合直觉——操作任务中最重要的信息是"什么在动"。

关键设计选择的消融：

对比	Avg. Len
辅助任务（当前帧重建） vs. 未来预测	4.14 vs. 4.44（+0.30）
光流监督 vs. 动态区域监督	4.23 vs. 4.44（+0.21）
标准 Causal Attention vs. 结构化注意力	3.75 vs. 4.44（+0.69）
共享查询 vs. 分离查询	4.17 vs. 4.44（+0.27）

结构化注意力是最重要的设计选择（+0.69），说明防止跨类知识泄露对保持表征解耦至关重要。

查询数量 $K$ 的影响： $K = 4$ → 4.32； $K = 9$ → 4.44（最优）； $K = 16$ → 4.33（收益递减）。

五、局限性与未来方向

论文指出的主要局限：

仅限平行夹爪：当前实验仅涉及双指夹爪操作，未验证在灵巧手等更复杂末端执行器上的表现
RGB 为中心：输入仅使用 RGB 图像，未融合点云或触觉等其他模态
场景多样性有限：实验场景的几何形状和材质种类较少

未来方向包括：灵巧手操作 + 接触标注、3D 点云融合、触觉数据融合，以及 on-policy 微调以提升长时域鲁棒性。

六、个人思考

6.1 "Dream before Act" 范式的演进

DreamVLA 与 FutureVLA 同属"预测未来 → 再行动"范式，但路线不同：

	DreamVLA	FutureVLA
预测目标	三类结构化世界知识（动态/深度/语义）	联合视觉-运动潜在嵌入
解耦方式	Block-wise 结构化注意力（显式隔离）	双流解耦监督（损失级别分离）
预测空间	特征空间（各自的解码头）	潜在空间（3D-VAE 编码）
主干	GPT-2 Medium（轻量）	Qwen2.5-VL（重量级 VLM）

DreamVLA 的优势在于显式定义了操作相关的三类知识，使得模型"梦"的内容有明确的物理含义；FutureVLA 则更灵活，让模型自己学什么是有用的未来信息。两种思路互补——DreamVLA 的 block-wise attention 设计可以启发 FutureVLA 对双流做更强的解耦。

6.2 结构化注意力的通用价值

消融实验中，结构化注意力带来的 +0.69 增益甚至超过了增加任何单类世界知识的收益。这提示我们：在多任务/多目标预测中，表征解耦可能比增加预测目标更重要。这一发现对其他多目标 VLA 设计也有参考价值。

6.3 动态区域 vs. 光流

DreamVLA 发现直接预测光流（连续向量场）不如预测动态区域（二值掩码）效果好（4.23 vs. 4.44）。这可能因为光流的精确数值对动作生成并不必要——模型只需知道"哪里在动"而不需要知道"动多快、动多远"。这种信息瓶颈反而帮助模型聚焦于最关键的信号。

6.4 轻量主干的启示

DreamVLA 使用 GPT-2 Medium 这样相对轻量的主干就在 CALVIN 上达到 SOTA，说明世界知识预测的框架设计比主干模型大小更重要。这与 VLA 领域"堆参数量"的趋势形成有趣对照。

参考

FutureVLA：联合视觉-运动预测建模，双流解耦先验增强 VLA，JVPM 框架
SuSIE / UniPi：预测未来 RGB 图像帧作为子目标引导动作
CoTracker：密集点追踪模型，DreamVLA 用于生成动态区域监督
Depth Anything：单目深度估计基础模型，DreamVLA 用于生成深度监督
DINOv2 / SAM：视觉基础模型，DreamVLA 用于生成语义特征监督
π₀：Flow Matching VLA 基础模型，DreamVLA 在 CALVIN 上大幅超越
OpenVLA：开源 VLA 基线，DreamVLA 的重要比较对象

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

DreamVLA：以综合世界知识预测驱动的感知-预测-动作 VLA ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 缺乏对操作相关世界知识的预测能力 ​

1.2 现有未来预测方法的两大局限 ​

1.3 DreamVLA 的核心思路 ​

二、预备知识 ​

2.1 三类世界知识的获取 ​

2.2 DiT 扩散动作头 ​

三、核心方法 ​

3.1 整体架构 ​

3.2 感知-预测-动作闭环 ​

3.3 Block-Wise 结构化注意力 ​

3.4 三类世界知识的训练目标 ​

3.5 训练细节 ​

四、实验结果 ​

4.1 CALVIN ABC-D（长时域多步操作） ​

4.2 LIBERO（四子集） ​

4.3 真实世界实验 ​

4.4 消融实验 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 "Dream before Act" 范式的演进 ​

6.2 结构化注意力的通用价值 ​

6.3 动态区域 vs. 光流 ​

6.4 轻量主干的启示 ​

参考 ​