DreamVLA:以综合世界知识预测驱动的感知-预测-动作 VLA
论文:DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
作者:Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, Xinqiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, Fan Lu, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
机构:上海交通大学、东方理工、清华大学、Galbot、北京大学、UIUC、中国科学技术大学
发布时间:2025年7月(NeurIPS 2025)
分类标签:
VLA世界知识预测结构化注意力DiT 动作头CALVIN SOTA
一句话总结
DreamVLA 提出感知-预测-动作闭环框架:在生成动作之前,先通过 <dream> 查询预测三类综合世界知识(动态区域、深度几何、高级语义),并以 block-wise 结构化注意力防止跨类知识泄露,最终用 DiT 扩散动作头生成动作序列,在 CALVIN ABC-D 上达到 4.44 平均任务长度 SOTA,LIBERO 92.6%,真实世界 76.7%。
一、问题与动机
1.1 VLA 缺乏对操作相关世界知识的预测能力
现有 VLA 模型主要基于感知-动作的直接映射:给定当前观测和语言指令,直接回归动作。这种方式缺少对未来世界状态的显式推理——模型不理解"抓起杯子后杯子会被抬起"或"推开抽屉后手臂需要移动到新位置"。
人类在执行操作任务时,会在行动之前想象未来场景的变化,这种"做梦"(dream)能力使得我们能做出更具前瞻性的决策。
1.2 现有未来预测方法的两大局限
此前工作(如 SuSIE、UniPi)尝试预测未来 RGB 图像帧,但存在:
| 局限 | 说明 |
|---|---|
| 信息冗余 | 直接预测像素级未来图像包含大量与操作无关的信息(背景纹理、光照),计算开销大且信号稀释 |
| 单一表征 | 仅预测某一种未来表征(如仅预测语义或仅预测光流),无法全面覆盖操作所需的多维度世界变化 |
1.3 DreamVLA 的核心思路
DreamVLA 的关键洞察:操作相关的世界知识是多维度的——同时包含"哪些区域在运动"(动态区域)、"物体在三维空间中的位置"(深度几何)、"物体是什么"(语义特征)。模型应该有选择性地预测这些与操作最相关的结构化世界知识,而非粗糙地预测整帧像素。
二、预备知识
2.1 三类世界知识的获取
DreamVLA 定义了三类与操作最相关的世界知识,通过离线工具提取监督信号:
| 知识类型 | 物理含义 | 提取工具 | 监督形式 |
|---|---|---|---|
| 动态区域 | 哪些像素在随末端执行器 / 可移动物体运动 | CoTracker(光流模型) | 二值运动掩码 |
| 深度几何 | 各像素的三维距离 | Depth Anything(单目深度估计) | 连续深度图 |
| 高级语义 | 物体类别与边界的高级理解 | DINOv2 + SAM | 特征向量 |
用大白话说:动态区域告诉模型"盯着手和物体看",深度告诉模型"物体有多远",语义告诉模型"那是什么东西"。三者组合提供了操作任务所需的最小必要世界理解。
2.2 DiT 扩散动作头
DreamVLA 使用 Diffusion Transformer (DiT-B) 作为动作生成器,通过 10 步去噪从高斯噪声生成 action chunk。DiT 以世界知识嵌入和动作嵌入为条件,逐步细化噪声为精确动作序列。
三、核心方法
3.1 整体架构
DreamVLA 由五个模块组成:
- 视觉编码器:MAE(Masked Autoencoder),提取时空视觉 patch 表征
- 文本编码器:CLIP 文本编码器,提取语言指令嵌入
- 状态编码器:Conv + FC 层,编码本体感觉信号(关节角度等)
- LLM 主干:GPT-2 Medium,核心推理与世界知识预测
- DiT 动作头:DiT-B,以世界知识为条件生成动作
3.2 感知-预测-动作闭环
DreamVLA 的推理分三个阶段:
阶段一:感知(Perception)
将当前观测
阶段二:预测(Prediction / Dream)
在输入 token 序列末尾附加 <dream> 查询 token(3 组,每组
阶段三:动作(Action)
在 <dream> 查询后附加 <action> 查询 token,聚合世界知识嵌入生成动作条件向量,送入 DiT 动作头,经 10 步去噪生成
3.3 Block-Wise 结构化注意力
这是 DreamVLA 的核心设计。标准的 causal attention 允许所有 <dream> 查询之间相互注意,但这会导致跨类知识泄露——三种不同类型的世界知识(动态、深度、语义)在 attention 中混杂,最终学到的是纠缠的而非解耦的表征。
DreamVLA 的注意力规则:
- 共享上下文:所有
<dream>子查询都可以注意视觉 token、语言 token 和状态 token - 跨类隔离:不同类型的
<dream>子查询之间的注意力边被 mask 掉——动态区域查询看不到深度查询和语义查询,反之亦然 - 同类交互:同类型的
个子查询之间可以正常交互 - 动作聚合:
<action>查询可以注意所有<dream>查询和共享上下文
用大白话说:三组 dream 查询各做各的"梦",各自从共享的视觉-语言上下文中提取自己关心的信息,互不干扰;最后 action 查询负责把三个梦的结果综合起来做决策。
消融实验显示,这种结构化注意力比标准 causal attention 带来 +0.69 平均任务长度的巨大提升(3.75 → 4.44),说明防止知识泄露对保持表征质量至关重要。
3.4 三类世界知识的训练目标
动态区域预测——基于 ELBO 的生成式损失:
其中
深度预测——尺度归一化 MSE 损失:
尺度因子
语义预测——InfoNCE 对比损失:
其中正样本
DiT 动作损失——标准 DDPM 噪声预测:
总损失:
其中
3.5 训练细节
| 参数 | 值 |
|---|---|
| 优化器 | AdamW |
| 初始学习率 | |
| 权重衰减 | |
| 学习率调度 | Cosine + 5% 线性预热 |
| Batch size | 64 |
| Epochs | 20 |
| 硬件 | 8 × NVIDIA A800 |
| 每类查询数 | 9 |
| DiT 去噪步数 | 10 |
预训练阶段使用 CALVIN 无语言标注数据 + 完整 DROID 数据集,然后在目标数据集上微调。
四、实验结果
4.1 CALVIN ABC-D(长时域多步操作)
| 方法 | Task 1 | Task 2 | Task 3 | Task 4 | Task 5 | Avg. Len |
|---|---|---|---|---|---|---|
| GR-1 | 85.4% | 71.2% | 59.6% | 49.7% | 40.1% | 3.06 |
| 3D Diffusor Actor | 92.2% | 78.7% | 63.9% | 51.2% | 41.2% | 3.27 |
| OpenVLA | 91.3% | 77.8% | 62.0% | 52.1% | 43.5% | 3.27 |
| π₀ | 93.8% | 85.0% | 76.7% | 68.1% | 59.9% | 3.92 |
| UP-VLA | 92.8% | 86.5% | 81.5% | 76.9% | 69.9% | 4.08 |
| RoboVLM | 98.0% | 93.6% | 85.4% | 77.8% | 70.4% | 4.25 |
| Seer | 96.3% | 91.6% | 86.1% | 80.3% | 74.0% | 4.28 |
| VPP | 95.7% | 91.2% | 86.3% | 81.0% | 75.0% | 4.29 |
| DreamVLA | 98.2% | 94.6% | 89.5% | 83.4% | 78.1% | 4.44 |
DreamVLA 在所有 5 个链式任务上均达到最高成功率,尤其在 Task 5(连续完成 5 个子任务)上以 78.1% 大幅领先,体现出强大的长时域一致性。
4.2 LIBERO(四子集)
| 方法 | Spatial | Object | Goal | Long | Average |
|---|---|---|---|---|---|
| Diffusion Policy | 78.3% | 92.5% | 68.3% | 50.5% | 72.4% |
| Octo | 78.9% | 85.7% | 84.6% | 51.1% | 75.1% |
| OpenVLA | 84.7% | 88.4% | 79.2% | 53.7% | 76.5% |
| SpatialVLA | 88.2% | 89.9% | 78.6% | 55.5% | 78.1% |
| DreamVLA | 97.5% | 94.0% | 89.5% | 89.5% | 92.6% |
DreamVLA 在 LIBERO-Long(长时域任务)上从基线 50-55% 提升至 89.5%,提升幅度最为显著,佐证了世界知识预测对长时域决策的增益。
4.3 真实世界实验
使用 Franka Panda 机械臂 + 两个 RealSense D415 相机,涵盖抓取、放置、抽屉操作三类任务:
| 任务类型 | DreamVLA | Diffusion Policy | Octo | OpenVLA |
|---|---|---|---|---|
| Pick(平均) | 82.5% | 60.0% | 55.0% | 45.0% |
| Place(平均) | 80.0% | 55.0% | 45.0% | 25.0% |
| Drawer(平均) | 67.5% | 37.5% | 35.0% | 35.0% |
| 整体 | 76.7% | 50.8% | 45.0% | 35.0% |
DreamVLA 在真实世界中整体超越最强基线 Diffusion Policy 约 26 个百分点。
4.4 消融实验
各类世界知识的增量贡献(CALVIN ABC-D Avg. Len):
| 配置 | Avg. Len | 增量 |
|---|---|---|
| Vanilla VLA(无预测) | 3.64 | — |
| + 动态区域 | 4.32 | +0.68(最大贡献) |
| + 深度 | 4.40 | +0.08 |
| + 语义 | 4.44 | +0.04 |
动态区域预测是最关键的知识类型,贡献了绝大部分增益。这符合直觉——操作任务中最重要的信息是"什么在动"。
关键设计选择的消融:
| 对比 | Avg. Len |
|---|---|
| 辅助任务(当前帧重建) vs. 未来预测 | 4.14 vs. 4.44(+0.30) |
| 光流监督 vs. 动态区域监督 | 4.23 vs. 4.44(+0.21) |
| 标准 Causal Attention vs. 结构化注意力 | 3.75 vs. 4.44(+0.69) |
| 共享查询 vs. 分离查询 | 4.17 vs. 4.44(+0.27) |
结构化注意力是最重要的设计选择(+0.69),说明防止跨类知识泄露对保持表征解耦至关重要。
查询数量
五、局限性与未来方向
论文指出的主要局限:
- 仅限平行夹爪:当前实验仅涉及双指夹爪操作,未验证在灵巧手等更复杂末端执行器上的表现
- RGB 为中心:输入仅使用 RGB 图像,未融合点云或触觉等其他模态
- 场景多样性有限:实验场景的几何形状和材质种类较少
未来方向包括:灵巧手操作 + 接触标注、3D 点云融合、触觉数据融合,以及 on-policy 微调以提升长时域鲁棒性。
六、个人思考
6.1 "Dream before Act" 范式的演进
DreamVLA 与 FutureVLA 同属"预测未来 → 再行动"范式,但路线不同:
| DreamVLA | FutureVLA | |
|---|---|---|
| 预测目标 | 三类结构化世界知识(动态/深度/语义) | 联合视觉-运动潜在嵌入 |
| 解耦方式 | Block-wise 结构化注意力(显式隔离) | 双流解耦监督(损失级别分离) |
| 预测空间 | 特征空间(各自的解码头) | 潜在空间(3D-VAE 编码) |
| 主干 | GPT-2 Medium(轻量) | Qwen2.5-VL(重量级 VLM) |
DreamVLA 的优势在于显式定义了操作相关的三类知识,使得模型"梦"的内容有明确的物理含义;FutureVLA 则更灵活,让模型自己学什么是有用的未来信息。两种思路互补——DreamVLA 的 block-wise attention 设计可以启发 FutureVLA 对双流做更强的解耦。
6.2 结构化注意力的通用价值
消融实验中,结构化注意力带来的 +0.69 增益甚至超过了增加任何单类世界知识的收益。这提示我们:在多任务/多目标预测中,表征解耦可能比增加预测目标更重要。这一发现对其他多目标 VLA 设计也有参考价值。
6.3 动态区域 vs. 光流
DreamVLA 发现直接预测光流(连续向量场)不如预测动态区域(二值掩码)效果好(4.23 vs. 4.44)。这可能因为光流的精确数值对动作生成并不必要——模型只需知道"哪里在动"而不需要知道"动多快、动多远"。这种信息瓶颈反而帮助模型聚焦于最关键的信号。
6.4 轻量主干的启示
DreamVLA 使用 GPT-2 Medium 这样相对轻量的主干就在 CALVIN 上达到 SOTA,说明世界知识预测的框架设计比主干模型大小更重要。这与 VLA 领域"堆参数量"的趋势形成有趣对照。
参考
- FutureVLA:联合视觉-运动预测建模,双流解耦先验增强 VLA,JVPM 框架
- SuSIE / UniPi:预测未来 RGB 图像帧作为子目标引导动作
- CoTracker:密集点追踪模型,DreamVLA 用于生成动态区域监督
- Depth Anything:单目深度估计基础模型,DreamVLA 用于生成深度监督
- DINOv2 / SAM:视觉基础模型,DreamVLA 用于生成语义特征监督
- π₀:Flow Matching VLA 基础模型,DreamVLA 在 CALVIN 上大幅超越
- OpenVLA:开源 VLA 基线,DreamVLA 的重要比较对象