DUST：世界模型增强 VLA 的双流扩散

论文：Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
作者：John Won、Kyungmin Lee、Huiwon Jang、Dongyoung Kim、Jinwoo Shin
机构：KAIST 金在哲 AI 研究生院、RLWRLD（首尔）
发布时间：2025年10月（arXiv）；正式发表于 ICML 2026（PMLR 306）
论文链接：arXiv | 项目主页
分类标签：世界模型增强 VLA 双流扩散 MMDiT 解耦噪声调度 异步采样推理缩放

一句话总结

DUST 用 MMDiT 双流架构（动作流 + 视觉流分开走，仅在共享跨模态注意力层交互）解决世界模型增强 VLA 中动作与视觉的"模态冲突"，配合每模态独立加噪的解耦流匹配损失（迫使模型在各种噪声组合下学到正/逆双向因果），以及异步联合采样（高维视觉 token 比低维动作 token 多去噪几步，实现推理时缩放）；在 GR00T-N1.5 上 RoboCasa/GR-1 分别超 FLARE 5%/6%、真实 Franka Research 3 超 10%，并支持无动作视频预训练与人机异构联合训练。

一、问题与动机

1.1 世界模型增强 VLA 的"模态鸿沟"

给 VLA 加世界建模目标（联合预测未来观测 + 动作）能让模型捕捉支配"动作 → 视觉后果"的潜在动力学，提升性能与泛化。但动作与视觉是统计性质截然不同的两种模态：

动作：低维、时序平滑的轨迹；
视觉：高维、空间复杂的图像（或图像嵌入）。

把它们塞进同一个生成过程会产生冲突。现有两条路线各有取舍（图 1）：

路线	代表	做法	缺陷
(a) 统一联合扩散	PAD、EnerVerse、UWM	拼接动作 + 视觉 token，单模型/单潜在空间联合生成	低维平滑动作与高维复杂视觉被迫共享一个空间，互相错配
(b) 因果扩散	Video Policy、VPP	两个独立模型，单向条件（动作 condition 在世界模型输出上）	学到了模态专属结构，但只能单向信息流，无法双向知识迁移

核心矛盾：跨模态融合 vs. 模态专属保真之间的权衡。

1.2 DUST 的思路

DUST（DUal-STream diffusion，图 1c）要同时拿到两者的好处：保留各模态独立的处理流（模态专属保真），又通过共享注意力实现双向跨模态交换（跨模态融合）。它建立在多模态扩散 Transformer（MMDiT）之上，并配套一个解耦训练算法和一个异步采样策略。

此外，与 FLARE、DINO-WM 一致，DUST 也采用嵌入空间（而非像素）作为世界建模目标——直接重建未来 RGB 会逼模型把容量浪费在纹理、光照、背景杂波等对控制无用、却感知显著的高频细节上，反而干扰物理动力学的学习。

二、预备知识

2.1 问题设定

数据集 $D = {T_{1}, T_{2}, \dots}$ ，每条轨迹 $T_{i} = {I, {(O_{t}, A_{t})}_{t = 0}^{L}}$ 含任务指令 $I$ 、观测 $O_{t} = (o_{t}^{v}, o_{t}^{s})$ （视觉观测 + 本体状态）和动作块 $A_{t} = (a_{t}, \dots, a_{t + k - 1})$ （ $k$ 为 chunk 长度）。目标：给定 $O_{t}, I$ 预测 $A_{t}$ 。

2.2 流匹配 VLA

冻结的 VLM（Eagle-2）从图像观测与指令中抽取语义特征 $Φ_{t}$ ，作为动作专家（DiT）的交叉注意力条件。动作专家用流匹配训练：采样 $τ \in [0, 1]$ 与噪声 $ϵ \sim N (0, I)$ ，构造 $A_{t}^{τ} = τ A_{t} + (1 - τ) ϵ$ （ $τ = 1$ 为干净动作， $τ = 0$ 为纯噪声），速度网络逼近真实速度场 $A_{t} - ϵ$ ：

L_{FM} (θ) = E_{A_{t}^{τ}, τ} [∥ V_{θ} (Φ_{t}, A_{t}^{τ}, o_{t}^{s}) - (A_{t} - ϵ) ∥^{2}]

$τ \sim Beta (\frac{s - τ}{s}; 1.5, 1.0), s = 0.999$ 。推理时从 $A_{t}^{0} \sim N (0, I)$ 出发，Euler 积分 $N_{A}$ 步（步长 $Δ τ = 1 / N_{A}$ ）： $A_{t}^{τ + Δ τ} = A_{t}^{τ} + V_{θ} (Φ_{t}, A_{t}^{τ}, o_{t}^{s}) Δ τ$ 。

2.3 世界建模目标

定义执行动作块 $A_{t}$ 后的未来视觉观测 $o_{t + k}^{v}$ ，其在 VLM 视觉编码器下的表示记为 ${\tilde{o}}_{t + k}$ 。世界建模即在给定 $Φ_{t}, o_{t}^{s}$ 下预测 ${\tilde{o}}_{t + k}$ ——让模型聚焦于"动作如何在语义抽象层面改变场景"这一因果结构。

三、核心方法

DUST 通过三个组件系统性化解动作-视觉的模态冲突。

3.1 DUST 架构：MMDiT 双流（图 2）

VLM 主干输出语义特征 $Φ_{t}$ ，扩散模型 $π_{θ}$ 接收三元组 $(o_{t}^{s}, A_{t}^{τ}, {\tilde{o}}_{t + k}^{τ})$ = 机器人状态、加噪动作、加噪未来观测嵌入。该输入经一叠 MMDiT block 处理，其关键设计：

在每个 MMDiT block 内，动作流与视觉流走各自独立的通路；
两股 token 仅在共享的跨模态注意力层拼接交互，随后立即拆回各自的流做其余运算；
每条流通过 AdaLN 接收各自独立的时间步嵌入（这是支撑 3.2 解耦训练的关键，见图 5）；
经过共享 MMDiT 层后，两股流被路由到各模态专属的 DiT block 做专门去噪——视觉通路专注重建语义一致的未来嵌入，动作通路专注精修低层运动控制。

配置：12 个 MMDiT block（跨模态）+ 4 个模态专属 DiT block（每流），VLM 特征取自 Eagle-2 第 12 层，自注意力/交叉注意力交替条件化。

用大白话说：MMDiT 像两条并排的流水线，平时各干各的（保模态保真），到指定工位才碰头交换信息（跨模态融合），碰完接着各干各的。

3.2 解耦扩散训练：用独立噪声学双向因果

灵感来自 diffusion forcing（per-token 独立噪声），DUST 把它改造成 per-modality 方案：动作与未来视觉用独立的时间步 $τ_{A}, τ_{o}$ 加噪：

A_{t}^{τ_{A}} = τ_{A} A_{t} + (1 - τ_{A}) ϵ_{A}, {\tilde{o}}_{t + k}^{τ_{o}} = τ_{o} {\tilde{o}}_{t + k} + (1 - τ_{o}) ϵ_{o}

模型输出两路速度 $V_{θ} (Φ_{t}, A_{t}^{τ_{A}}, {\tilde{o}}_{t + k}^{τ_{o}}, o_{t}^{s}) = [V_{θ}^{A}, V_{θ}^{o}]$ ，分别优化：

L_{A} (θ) = E [∥ V_{θ}^{A} - (A_{t} - ϵ_{A}) ∥^{2}], L_{WM} (θ) = E [∥ V_{θ}^{o} - ({\tilde{o}}_{t + k} - ϵ_{o}) ∥^{2}]

依据 Rojas et al. (2025)（Diffuse Everything）：只要两模态独立注入噪声，联合扩散目标即可分解为两路单模态损失之和，于是总目标为：

L_{Joint} (θ) = L_{A} (θ) + λ_{WM} L_{WM} (θ)

为什么解耦如此关键？ 标准扩散对两模态同步加噪，模型只见过"两边一样脏"的组合。解耦后模型会被暴露在各种噪声搭配下，从而被迫学到双向因果：

一边干净的未来观测 + 一边重噪声的动作 → 模型必须从"未来状态"反推动作，监督逆动力学："什么动作能导致这个状态？"
干净的动作 + 重噪声的未来观测 → 模型从动作预测后果，监督正动力学："这个动作的后果是什么？"

附录 A.9 用一个验证实验佐证这点：固定 ground-truth 未来状态、逐步加噪后让模型生成动作，动作 MSE 随噪声单调上升（0 噪声 0.0318 → 满噪声 0.0865），说明模型确实在利用跨模态依赖，而非表面对齐。

3.3 异步联合采样：推理时缩放

推理时两模态并行采样，互为约束。但二者需求不对称：高维视觉嵌入通常需要更多去噪步，低维动作步数少即收敛、步数太多反而掉点。DUST 据此提出异步前向 Euler 采样：

动作固定 $N_{A}$ 步；视觉用更多的 $N_{o} = q \times N_{A}$ 步（ $q \in N$ ）；
全局步长 $Δ τ_{o} = 1 / N_{o}$ ，视觉 token 每步都更新，动作 token 每 $q$ 步才更新一次（步长 $Δ τ_{A} = 1 / N_{A} = q Δ τ_{o}$ ）：

{\tilde{o}}_{t + k}^{τ_{o} + Δ τ_{o}} = {\tilde{o}}_{t + k}^{τ_{o}} + V_{θ}^{o} Δ τ_{o}, A_{t}^{τ_{A} + Δ τ_{A}} = {\begin{cases} A_{t}^{τ_{A}} + V_{θ}^{A} Δ τ_{A}, & if τ_{A} N_{o} mod q = 0 \\ A_{t}^{τ_{A}}, & otherwise \end{cases}

主实验取 $q = 1$ （ $N_{o} = N_{A} = 4$ ）与基线公平对比；增大 $q$ （即 $N_{o}$ ）即可在推理速度与预测精度间做可调权衡。

四、实验结果

统一设置：冻结 Eagle-2 VLM + 随机初始化的扩散动作专家。世界建模目标 = Eagle-2 产出的 SigLIP-2 嵌入，每图 256 token → 2×2 平均池化为 64 token。扩散模块共处理 1 个状态 token + 16 个动作 token + 64 个未来图像 token。 $λ_{WM} = 1.0$ 。FLARE 基线因官方未开源被复现（去掉 Q-former，用 REPA 式 MLP 对齐头 + 同样的 SigLIP-2 目标）。

4.1 仿真主结果

RoboCasa（24 任务）平均成功率：

Method	100 demos	300 demos	1000 demos
π₀	43.0	43.9	45.9
GR00T-N1.5	41.7	45.0	50.8
+ FLARE†	44.6	55.3	64.6
+ DUST	50.1	58.5	66.3

GR-1 人形（24 任务）平均成功率：

Method	300 demos	1000 demos
GR00T-N1.5	20.3	30.8
+ FLARE†	33.7	36.3
+ DUST	36.0	42.0

DUST 在所有数据规模、所有任务类别上稳定领先；RoboCasa 100 demos 时较 GR00T-N1.5 高 18%、较 FLARE 高 5%，数据效率与可扩展性兼得。附录中 LIBERO 上 DUST 96.2 = FLARE 96.2（并列最高），CALVIN ABC-D 平均链长 DUST 3.91 > FLARE 3.75。

4.2 真实 Franka Research 3（7 任务：4 PnP + 1 插入 + 2 工具使用）

Method	平均成功率
π₀	40.2
GR00T-N1.5	46.5
+ FLARE†	49.5
+ DUST	59.9

DUST 在每个任务上都最高，平均较 GR00T-N1.5 高 13%、较 FLARE 高 10.4%，涵盖从标准抓放到精密插线、工具擦写等复杂操作。

4.3 迁移学习

人机异构联合训练（RoboCasa 300 + GR-1 300 + EgoDex 人类第一视角视频 46k 条，经 MANO 手姿估计重定向到 Fourier 灵巧手动作空间）：DUST 平均成功率 58.5 → 64.4（+5.9），增益大于 FLARE（55.3 → 57.6）与 GR00T（45.0 → 46.9）。世界建模把异构动作空间对齐到共享表示空间，化解了直接动作回归时的目标分布冲突。

无动作视频预训练（BridgeV2 纯视频，只训世界建模项、动作 token 随机初始化，再用 RoboCasa 100 demos 微调）：DUST 50.1 → 58.5；FLARE 44.6 → 55.1。DUST 的双流架构天然适配此设定。

4.4 推理时缩放与效率

异步缩放（Table 6，增大 $N_{o}$ ， $N_{A}$ 固定 4）：RoboCasa 64 步约 +2–3%（100 demos 50.1→51.8，1000 demos 66.3→69.7）；GR-1 32 步 +5%（42.0→47.1）。附录 A.2 证明同步增大两模态步数反而掉点（Table 11），印证"只有视觉需要更多步"的假设，异步是缩放奏效的关键。增步在确定性 ODE 求解器下偶有非单调（如 GR-1 $N_{o} = 64$ ）。

速度（RTX 5090 + TorchInductor）：DUST 4 步 24.6 ms（~40 Hz），比 π₀（~13 Hz）、OpenVLA（~5.5 Hz）、π₀-FAST（~3 Hz）快 3–10×；即便 32 步缩放仍维持 ~8 Hz，满足闭环控制。

4.5 消融

架构 × 噪声（RoboCasa 100，Table 7a）——两个设计缺一不可：

架构	噪声	Avg.
DiT	联合	38.0
DiT	解耦	42.5
MMDiT	联合	38.2
MMDiT	解耦	50.1

去掉双流结构掉 8%，去掉解耦噪声掉 12%——MMDiT 负责结构化跨模态表示学习，解耦噪声负责让每模态学因果关系。

其他：MMDiT 层数（总 16 层）取 12 最优（47.4→48.3→50.1→49.3）； $λ_{WM}$ 在 $[0.5, 2.0]$ 稳定（0.2→34.3, 1.0→50.1, 2.0→49.6），需大致等权两目标；Latent embedder（Table 8）：SigLIP-2 50.1、DINOv2 51.6、Flux.1 VAE 49.1——重建型 VAE latent 即便像素重建更强也不带来增益，语义嵌入才是好目标。

附录 A.10 还显示：推理时完全关闭视觉去噪（0 步）仍达 47.9%，超过 GR00T-N1.5（41.7）与 FLARE（44.6）——世界建模训练已把因果结构内化进 MMDiT 的表示中，可作超低延迟模式。

五、局限性与未来方向

依赖视觉预测，怕遮挡（附录 A.11）：DUST 靠预测未来视觉来"预判落点"，当观测被手臂/夹爪自遮挡或相机视野不佳时，这一核心优势反被削弱，真实任务 PnP-4 失败率偏高即源于此。
仅从当前状态预测：当前 formulation 不含历史。引入多帧历史可为世界建模提供时序上下文，抵抗瞬时视觉噪声/遮挡。
缓解方向：增加相机视角、加强本体状态先验、引入历史观测。

六、个人思考

6.1 与 FLARE 的正面交锋：隐式对齐 vs. 显式双流扩散

DUST 把 FLARE 当作头号 baseline，二者是同一问题（嵌入空间世界建模增强 VLA）的两种答卷，对比极具教学意义：

	FLARE	DUST
世界建模方式	隐式：DiT 中间层 future token 激活与未来嵌入做 cos 对齐，不生成	显式：视觉流通过扩散生成未来嵌入
信息流向	future token 经自注意力软交互，本质偏单向辅助	MMDiT 共享注意力 + 解耦噪声，显式双向（正/逆动力学）
推理开销	零（future token 仅训练用）	默认 4 步约 40 Hz；可关视觉步退化为零开销模式
目标嵌入	自训的动作感知 Q-former 嵌入（论文最优配置）	VLM 自带的 SigLIP-2 嵌入

DUST 在 RoboCasa/GR-1/真实 Franka 上稳定超 FLARE 5–10%。但有一个重要公平性 caveat：DUST 复现的 FLARE 去掉了 Q-former、改用 REPA 式 MLP 对齐头（因 FLARE 未开源）。而 FLARE 原论文消融恰恰表明，动作感知 Q-former 嵌入（55.0%）显著优于通用 SigLIP-2（49.6%）。换言之，DUST 比的是"简化版 FLARE"，把 FLARE 的隐式对齐机制与它的动作感知 teacher 解耦后单独对比。这说明 DUST 的增益主要来自双向因果建模机制本身，而非 teacher 质量——但也意味着"DUST + 动作感知嵌入"是一个尚未被探索、可能更强的组合。

6.2 解耦噪声 = 把"正/逆动力学"免费塞进训练

我认为 3.2 是全文最漂亮的一招。标准联合扩散同步加噪，模型永远只见"两边一样脏"。而独立 $(τ_{A}, τ_{o})$ 让训练自然覆盖"一边干净一边噪声"的极端组合，等价于同时训练正向世界模型与逆动力学模型，且不需要任何额外的损失项或网络分支——只是改了加噪调度。这与 DreamVLA 用 block-wise 注意力显式隔离三类知识、FutureVLA 用双流解耦监督的思路殊途同归：都在强调"让不同子目标各自独立地学，再受控地交互"。三者可以看作"解耦"在不同层面的实现——DUST 在噪声调度层面，DreamVLA 在注意力层面，FutureVLA 在监督层面。

6.3 异步采样：把"模态需要不同步数"这件事制度化

"动作步数少即收敛、视觉需要多步"几乎是所有联合 VLA 的隐痛，多数工作只能取折中。DUST 用异步积分把它显式参数化为可调的 $q$ ，并用同步缩放反例（附录 A.2）证明这不是锦上添花而是必要设计。这点对 OptimusVLA 的自适应 NFE、以及一切"扩散动作头 + 视觉预测"的架构都有借鉴价值。

6.4 一个有趣的"出身"线索

本文作者 Huiwon Jang、Jinwoo Shin 正是 REPA（Yu, Kwak, Jang, …, Shin, Xie, ICLR 2025）的作者——而 REPA 又是 FLARE 隐式对齐的直接灵感来源。也就是说，DUST 团队对"表示对齐式世界建模"知根知底，转而提出"显式双流扩散"路线，某种程度上是对自家 REPA→FLARE 路线的一次"反向论证"：表示对齐之外，显式的双向扩散生成同样（甚至更）有效。

参考

FLARE（Zheng et al., 2025）：隐式未来潜在对齐世界模型，DUST 的头号对比基线与机制对照
GR00T-N1.5（NVIDIA et al., 2025）：DUST 的 VLA 底座（Eagle-2 VLM + 扩散动作专家），所有增强都加在其上
π₀（Black et al., 2025）：流匹配 VLA 基础，提供动作专家范式与 Beta 时间步采样
Diffusion Forcing（Chen et al., 2025）：per-token 独立噪声，DUST 解耦训练改造为 per-modality 方案的灵感来源
Diffuse Everything（Rojas et al., 2025）：证明独立加噪下联合扩散目标可分解为单模态损失之和，DUST 解耦损失的理论依据
MMDiT / SD3（Esser et al., 2024）：多模态扩散 Transformer 架构，DUST 双流的骨架
REPA（Yu et al., 2025）：表示对齐加速扩散，本文作者同组工作，亦是 FLARE 的灵感来源
DINO-WM（Zhou et al., 2024）：嵌入空间世界模型路线的同道，支持"用预训练编码器表示替代像素重建"

幻觉缓解

Token 压缩

基础模型

感知增强

推理与规划

高效推理

RL 后训练

DUST：世界模型增强 VLA 的双流扩散 ​

一句话总结 ​

一、问题与动机 ​

1.1 世界模型增强 VLA 的"模态鸿沟" ​

1.2 DUST 的思路 ​

二、预备知识 ​

2.1 问题设定 ​

2.2 流匹配 VLA ​

2.3 世界建模目标 ​

三、核心方法 ​

3.1 DUST 架构：MMDiT 双流（图 2） ​

3.2 解耦扩散训练：用独立噪声学双向因果 ​

3.3 异步联合采样：推理时缩放 ​

四、实验结果 ​

4.1 仿真主结果 ​

4.2 真实 Franka Research 3（7 任务：4 PnP + 1 插入 + 2 工具使用） ​

4.3 迁移学习 ​

4.4 推理时缩放与效率 ​

4.5 消融 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与 FLARE 的正面交锋：隐式对齐 vs. 显式双流扩散 ​

6.2 解耦噪声 = 把"正/逆动力学"免费塞进训练 ​

6.3 异步采样：把"模态需要不同步数"这件事制度化 ​

6.4 一个有趣的"出身"线索 ​

参考 ​