DUST:世界模型增强 VLA 的双流扩散
论文:Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
作者:John Won、Kyungmin Lee、Huiwon Jang、Dongyoung Kim、Jinwoo Shin
机构:KAIST 金在哲 AI 研究生院、RLWRLD(首尔)
发布时间:2025年10月(arXiv);正式发表于 ICML 2026(PMLR 306)
分类标签:
世界模型增强 VLA双流扩散MMDiT解耦噪声调度异步采样推理缩放
一句话总结
DUST 用 MMDiT 双流架构(动作流 + 视觉流分开走,仅在共享跨模态注意力层交互)解决世界模型增强 VLA 中动作与视觉的"模态冲突",配合每模态独立加噪的解耦流匹配损失(迫使模型在各种噪声组合下学到正/逆双向因果),以及异步联合采样(高维视觉 token 比低维动作 token 多去噪几步,实现推理时缩放);在 GR00T-N1.5 上 RoboCasa/GR-1 分别超 FLARE 5%/6%、真实 Franka Research 3 超 10%,并支持无动作视频预训练与人机异构联合训练。
一、问题与动机
1.1 世界模型增强 VLA 的"模态鸿沟"
给 VLA 加世界建模目标(联合预测未来观测 + 动作)能让模型捕捉支配"动作 → 视觉后果"的潜在动力学,提升性能与泛化。但动作与视觉是统计性质截然不同的两种模态:
- 动作:低维、时序平滑的轨迹;
- 视觉:高维、空间复杂的图像(或图像嵌入)。
把它们塞进同一个生成过程会产生冲突。现有两条路线各有取舍(图 1):
| 路线 | 代表 | 做法 | 缺陷 |
|---|---|---|---|
| (a) 统一联合扩散 | PAD、EnerVerse、UWM | 拼接动作 + 视觉 token,单模型/单潜在空间联合生成 | 低维平滑动作与高维复杂视觉被迫共享一个空间,互相错配 |
| (b) 因果扩散 | Video Policy、VPP | 两个独立模型,单向条件(动作 condition 在世界模型输出上) | 学到了模态专属结构,但只能单向信息流,无法双向知识迁移 |
核心矛盾:跨模态融合 vs. 模态专属保真之间的权衡。
1.2 DUST 的思路
DUST(DUal-STream diffusion,图 1c)要同时拿到两者的好处:保留各模态独立的处理流(模态专属保真),又通过共享注意力实现双向跨模态交换(跨模态融合)。它建立在多模态扩散 Transformer(MMDiT)之上,并配套一个解耦训练算法和一个异步采样策略。
此外,与 FLARE、DINO-WM 一致,DUST 也采用嵌入空间(而非像素)作为世界建模目标——直接重建未来 RGB 会逼模型把容量浪费在纹理、光照、背景杂波等对控制无用、却感知显著的高频细节上,反而干扰物理动力学的学习。
二、预备知识
2.1 问题设定
数据集
2.2 流匹配 VLA
冻结的 VLM(Eagle-2)从图像观测与指令中抽取语义特征
2.3 世界建模目标
定义执行动作块
三、核心方法
DUST 通过三个组件系统性化解动作-视觉的模态冲突。
3.1 DUST 架构:MMDiT 双流(图 2)
VLM 主干输出语义特征
- 在每个 MMDiT block 内,动作流与视觉流走各自独立的通路;
- 两股 token 仅在共享的跨模态注意力层拼接交互,随后立即拆回各自的流做其余运算;
- 每条流通过 AdaLN 接收各自独立的时间步嵌入(这是支撑 3.2 解耦训练的关键,见图 5);
- 经过共享 MMDiT 层后,两股流被路由到各模态专属的 DiT block 做专门去噪——视觉通路专注重建语义一致的未来嵌入,动作通路专注精修低层运动控制。
配置:12 个 MMDiT block(跨模态)+ 4 个模态专属 DiT block(每流),VLM 特征取自 Eagle-2 第 12 层,自注意力/交叉注意力交替条件化。
用大白话说:MMDiT 像两条并排的流水线,平时各干各的(保模态保真),到指定工位才碰头交换信息(跨模态融合),碰完接着各干各的。
3.2 解耦扩散训练:用独立噪声学双向因果
灵感来自 diffusion forcing(per-token 独立噪声),DUST 把它改造成 per-modality 方案:动作与未来视觉用独立的时间步
模型输出两路速度
依据 Rojas et al. (2025)(Diffuse Everything):只要两模态独立注入噪声,联合扩散目标即可分解为两路单模态损失之和,于是总目标为:
为什么解耦如此关键? 标准扩散对两模态同步加噪,模型只见过"两边一样脏"的组合。解耦后模型会被暴露在各种噪声搭配下,从而被迫学到双向因果:
- 一边干净的未来观测 + 一边重噪声的动作 → 模型必须从"未来状态"反推动作,监督逆动力学:"什么动作能导致这个状态?"
- 干净的动作 + 重噪声的未来观测 → 模型从动作预测后果,监督正动力学:"这个动作的后果是什么?"
附录 A.9 用一个验证实验佐证这点:固定 ground-truth 未来状态、逐步加噪后让模型生成动作,动作 MSE 随噪声单调上升(0 噪声 0.0318 → 满噪声 0.0865),说明模型确实在利用跨模态依赖,而非表面对齐。
3.3 异步联合采样:推理时缩放
推理时两模态并行采样,互为约束。但二者需求不对称:高维视觉嵌入通常需要更多去噪步,低维动作步数少即收敛、步数太多反而掉点。DUST 据此提出异步前向 Euler 采样:
- 动作固定
步;视觉用更多的 步( ); - 全局步长
,视觉 token 每步都更新,动作 token 每 步才更新一次(步长 ):
主实验取
四、实验结果
统一设置:冻结 Eagle-2 VLM + 随机初始化的扩散动作专家。世界建模目标 = Eagle-2 产出的 SigLIP-2 嵌入,每图 256 token → 2×2 平均池化为 64 token。扩散模块共处理 1 个状态 token + 16 个动作 token + 64 个未来图像 token。
4.1 仿真主结果
RoboCasa(24 任务)平均成功率:
| Method | 100 demos | 300 demos | 1000 demos |
|---|---|---|---|
| π₀ | 43.0 | 43.9 | 45.9 |
| GR00T-N1.5 | 41.7 | 45.0 | 50.8 |
| + FLARE† | 44.6 | 55.3 | 64.6 |
| + DUST | 50.1 | 58.5 | 66.3 |
GR-1 人形(24 任务)平均成功率:
| Method | 300 demos | 1000 demos |
|---|---|---|
| GR00T-N1.5 | 20.3 | 30.8 |
| + FLARE† | 33.7 | 36.3 |
| + DUST | 36.0 | 42.0 |
DUST 在所有数据规模、所有任务类别上稳定领先;RoboCasa 100 demos 时较 GR00T-N1.5 高 18%、较 FLARE 高 5%,数据效率与可扩展性兼得。附录中 LIBERO 上 DUST 96.2 = FLARE 96.2(并列最高),CALVIN ABC-D 平均链长 DUST 3.91 > FLARE 3.75。
4.2 真实 Franka Research 3(7 任务:4 PnP + 1 插入 + 2 工具使用)
| Method | 平均成功率 |
|---|---|
| π₀ | 40.2 |
| GR00T-N1.5 | 46.5 |
| + FLARE† | 49.5 |
| + DUST | 59.9 |
DUST 在每个任务上都最高,平均较 GR00T-N1.5 高 13%、较 FLARE 高 10.4%,涵盖从标准抓放到精密插线、工具擦写等复杂操作。
4.3 迁移学习
人机异构联合训练(RoboCasa 300 + GR-1 300 + EgoDex 人类第一视角视频 46k 条,经 MANO 手姿估计重定向到 Fourier 灵巧手动作空间):DUST 平均成功率 58.5 → 64.4(+5.9),增益大于 FLARE(55.3 → 57.6)与 GR00T(45.0 → 46.9)。世界建模把异构动作空间对齐到共享表示空间,化解了直接动作回归时的目标分布冲突。
无动作视频预训练(BridgeV2 纯视频,只训世界建模项、动作 token 随机初始化,再用 RoboCasa 100 demos 微调):DUST 50.1 → 58.5;FLARE 44.6 → 55.1。DUST 的双流架构天然适配此设定。
4.4 推理时缩放与效率
异步缩放(Table 6,增大
速度(RTX 5090 + TorchInductor):DUST 4 步 24.6 ms(~40 Hz),比 π₀(~13 Hz)、OpenVLA(~5.5 Hz)、π₀-FAST(~3 Hz)快 3–10×;即便 32 步缩放仍维持 ~8 Hz,满足闭环控制。
4.5 消融
架构 × 噪声(RoboCasa 100,Table 7a)——两个设计缺一不可:
| 架构 | 噪声 | Avg. |
|---|---|---|
| DiT | 联合 | 38.0 |
| DiT | 解耦 | 42.5 |
| MMDiT | 联合 | 38.2 |
| MMDiT | 解耦 | 50.1 |
去掉双流结构掉 8%,去掉解耦噪声掉 12%——MMDiT 负责结构化跨模态表示学习,解耦噪声负责让每模态学因果关系。
其他:MMDiT 层数(总 16 层)取 12 最优(47.4→48.3→50.1→49.3);
附录 A.10 还显示:推理时完全关闭视觉去噪(0 步)仍达 47.9%,超过 GR00T-N1.5(41.7)与 FLARE(44.6)——世界建模训练已把因果结构内化进 MMDiT 的表示中,可作超低延迟模式。
五、局限性与未来方向
- 依赖视觉预测,怕遮挡(附录 A.11):DUST 靠预测未来视觉来"预判落点",当观测被手臂/夹爪自遮挡或相机视野不佳时,这一核心优势反被削弱,真实任务 PnP-4 失败率偏高即源于此。
- 仅从当前状态预测:当前 formulation 不含历史。引入多帧历史可为世界建模提供时序上下文,抵抗瞬时视觉噪声/遮挡。
- 缓解方向:增加相机视角、加强本体状态先验、引入历史观测。
六、个人思考
6.1 与 FLARE 的正面交锋:隐式对齐 vs. 显式双流扩散
DUST 把 FLARE 当作头号 baseline,二者是同一问题(嵌入空间世界建模增强 VLA)的两种答卷,对比极具教学意义:
| FLARE | DUST | |
|---|---|---|
| 世界建模方式 | 隐式:DiT 中间层 future token 激活与未来嵌入做 cos 对齐,不生成 | 显式:视觉流通过扩散生成未来嵌入 |
| 信息流向 | future token 经自注意力软交互,本质偏单向辅助 | MMDiT 共享注意力 + 解耦噪声,显式双向(正/逆动力学) |
| 推理开销 | 零(future token 仅训练用) | 默认 4 步约 40 Hz;可关视觉步退化为零开销模式 |
| 目标嵌入 | 自训的动作感知 Q-former 嵌入(论文最优配置) | VLM 自带的 SigLIP-2 嵌入 |
DUST 在 RoboCasa/GR-1/真实 Franka 上稳定超 FLARE 5–10%。但有一个重要公平性 caveat:DUST 复现的 FLARE 去掉了 Q-former、改用 REPA 式 MLP 对齐头(因 FLARE 未开源)。而 FLARE 原论文消融恰恰表明,动作感知 Q-former 嵌入(55.0%)显著优于通用 SigLIP-2(49.6%)。换言之,DUST 比的是"简化版 FLARE",把 FLARE 的隐式对齐机制与它的动作感知 teacher 解耦后单独对比。这说明 DUST 的增益主要来自双向因果建模机制本身,而非 teacher 质量——但也意味着"DUST + 动作感知嵌入"是一个尚未被探索、可能更强的组合。
6.2 解耦噪声 = 把"正/逆动力学"免费塞进训练
我认为 3.2 是全文最漂亮的一招。标准联合扩散同步加噪,模型永远只见"两边一样脏"。而独立
6.3 异步采样:把"模态需要不同步数"这件事制度化
"动作步数少即收敛、视觉需要多步"几乎是所有联合 VLA 的隐痛,多数工作只能取折中。DUST 用异步积分把它显式参数化为可调的
6.4 一个有趣的"出身"线索
本文作者 Huiwon Jang、Jinwoo Shin 正是 REPA(Yu, Kwak, Jang, …, Shin, Xie, ICLR 2025)的作者——而 REPA 又是 FLARE 隐式对齐的直接灵感来源。也就是说,DUST 团队对"表示对齐式世界建模"知根知底,转而提出"显式双流扩散"路线,某种程度上是对自家 REPA→FLARE 路线的一次"反向论证":表示对齐之外,显式的双向扩散生成同样(甚至更)有效。
参考
- FLARE(Zheng et al., 2025):隐式未来潜在对齐世界模型,DUST 的头号对比基线与机制对照
- GR00T-N1.5(NVIDIA et al., 2025):DUST 的 VLA 底座(Eagle-2 VLM + 扩散动作专家),所有增强都加在其上
- π₀(Black et al., 2025):流匹配 VLA 基础,提供动作专家范式与 Beta 时间步采样
- Diffusion Forcing(Chen et al., 2025):per-token 独立噪声,DUST 解耦训练改造为 per-modality 方案的灵感来源
- Diffuse Everything(Rojas et al., 2025):证明独立加噪下联合扩散目标可分解为单模态损失之和,DUST 解耦损失的理论依据
- MMDiT / SD3(Esser et al., 2024):多模态扩散 Transformer 架构,DUST 双流的骨架
- REPA(Yu et al., 2025):表示对齐加速扩散,本文作者同组工作,亦是 FLARE 的灵感来源
- DINO-WM(Zhou et al., 2024):嵌入空间世界模型路线的同道,支持"用预训练编码器表示替代像素重建"