Skip to content

DUST:世界模型增强 VLA 的双流扩散

论文Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

作者:John Won、Kyungmin Lee、Huiwon Jang、Dongyoung Kim、Jinwoo Shin

机构:KAIST 金在哲 AI 研究生院、RLWRLD(首尔)

发布时间:2025年10月(arXiv);正式发表于 ICML 2026(PMLR 306)

论文链接arXiv | 项目主页

分类标签世界模型增强 VLA 双流扩散 MMDiT 解耦噪声调度 异步采样推理缩放


一句话总结

DUST 用 MMDiT 双流架构(动作流 + 视觉流分开走,仅在共享跨模态注意力层交互)解决世界模型增强 VLA 中动作与视觉的"模态冲突",配合每模态独立加噪的解耦流匹配损失(迫使模型在各种噪声组合下学到正/逆双向因果),以及异步联合采样(高维视觉 token 比低维动作 token 多去噪几步,实现推理时缩放);在 GR00T-N1.5 上 RoboCasa/GR-1 分别超 FLARE 5%/6%、真实 Franka Research 3 超 10%,并支持无动作视频预训练与人机异构联合训练。


一、问题与动机

1.1 世界模型增强 VLA 的"模态鸿沟"

给 VLA 加世界建模目标(联合预测未来观测 + 动作)能让模型捕捉支配"动作 → 视觉后果"的潜在动力学,提升性能与泛化。但动作与视觉是统计性质截然不同的两种模态:

  • 动作:低维、时序平滑的轨迹;
  • 视觉:高维、空间复杂的图像(或图像嵌入)。

把它们塞进同一个生成过程会产生冲突。现有两条路线各有取舍(图 1):

路线代表做法缺陷
(a) 统一联合扩散PAD、EnerVerse、UWM拼接动作 + 视觉 token,单模型/单潜在空间联合生成低维平滑动作与高维复杂视觉被迫共享一个空间,互相错配
(b) 因果扩散Video Policy、VPP两个独立模型,单向条件(动作 condition 在世界模型输出上)学到了模态专属结构,但只能单向信息流,无法双向知识迁移

核心矛盾:跨模态融合 vs. 模态专属保真之间的权衡。

1.2 DUST 的思路

DUST(DUal-STream diffusion,图 1c)要同时拿到两者的好处:保留各模态独立的处理流(模态专属保真),又通过共享注意力实现双向跨模态交换(跨模态融合)。它建立在多模态扩散 Transformer(MMDiT)之上,并配套一个解耦训练算法和一个异步采样策略。

此外,与 FLARE、DINO-WM 一致,DUST 也采用嵌入空间(而非像素)作为世界建模目标——直接重建未来 RGB 会逼模型把容量浪费在纹理、光照、背景杂波等对控制无用、却感知显著的高频细节上,反而干扰物理动力学的学习。


二、预备知识

2.1 问题设定

数据集 D={T1,T2,},每条轨迹 Ti={I,{(Ot,At)}t=0L} 含任务指令 I、观测 Ot=(otv,ots)(视觉观测 + 本体状态)和动作块 At=(at,,at+k1)k 为 chunk 长度)。目标:给定 Ot,I 预测 At

2.2 流匹配 VLA

冻结的 VLM(Eagle-2)从图像观测与指令中抽取语义特征 Φt,作为动作专家(DiT)的交叉注意力条件。动作专家用流匹配训练:采样 τ[0,1] 与噪声 ϵN(0,I),构造 Atτ=τAt+(1τ)ϵτ=1 为干净动作,τ=0 为纯噪声),速度网络逼近真实速度场 Atϵ

LFM(θ)=EAtτ,τ[Vθ(Φt,Atτ,ots)(Atϵ)2]

τBeta(sτs;1.5,1.0), s=0.999。推理时从 At0N(0,I) 出发,Euler 积分 NA 步(步长 Δτ=1/NA):Atτ+Δτ=Atτ+Vθ(Φt,Atτ,ots)Δτ

2.3 世界建模目标

定义执行动作块 At 后的未来视觉观测 ot+kv,其在 VLM 视觉编码器下的表示记为 o~t+k。世界建模即在给定 Φt,ots 下预测 o~t+k——让模型聚焦于"动作如何在语义抽象层面改变场景"这一因果结构。


三、核心方法

DUST 通过三个组件系统性化解动作-视觉的模态冲突。

3.1 DUST 架构:MMDiT 双流(图 2)

VLM 主干输出语义特征 Φt,扩散模型 πθ 接收三元组 (ots, Atτ, o~t+kτ) = 机器人状态、加噪动作、加噪未来观测嵌入。该输入经一叠 MMDiT block 处理,其关键设计:

  1. 在每个 MMDiT block 内,动作流与视觉流走各自独立的通路
  2. 两股 token 仅在共享的跨模态注意力层拼接交互,随后立即拆回各自的流做其余运算;
  3. 每条流通过 AdaLN 接收各自独立的时间步嵌入(这是支撑 3.2 解耦训练的关键,见图 5);
  4. 经过共享 MMDiT 层后,两股流被路由到各模态专属的 DiT block 做专门去噪——视觉通路专注重建语义一致的未来嵌入,动作通路专注精修低层运动控制。

配置:12 个 MMDiT block(跨模态)+ 4 个模态专属 DiT block(每流),VLM 特征取自 Eagle-2 第 12 层,自注意力/交叉注意力交替条件化。

用大白话说:MMDiT 像两条并排的流水线,平时各干各的(保模态保真),到指定工位才碰头交换信息(跨模态融合),碰完接着各干各的。

3.2 解耦扩散训练:用独立噪声学双向因果

灵感来自 diffusion forcing(per-token 独立噪声),DUST 把它改造成 per-modality 方案:动作与未来视觉用独立的时间步 τA,τo 加噪:

AtτA=τAAt+(1τA)ϵA,o~t+kτo=τoo~t+k+(1τo)ϵo

模型输出两路速度 Vθ(Φt,AtτA,o~t+kτo,ots)=[VθA,Vθo],分别优化:

LA(θ)=E[VθA(AtϵA)2],LWM(θ)=E[Vθo(o~t+kϵo)2]

依据 Rojas et al. (2025)(Diffuse Everything):只要两模态独立注入噪声,联合扩散目标即可分解为两路单模态损失之和,于是总目标为:

LJoint(θ)=LA(θ)+λWMLWM(θ)

为什么解耦如此关键? 标准扩散对两模态同步加噪,模型只见过"两边一样脏"的组合。解耦后模型会被暴露在各种噪声搭配下,从而被迫学到双向因果:

  • 一边干净的未来观测 + 一边重噪声的动作 → 模型必须从"未来状态"反推动作,监督逆动力学:"什么动作能导致这个状态?"
  • 干净的动作 + 重噪声的未来观测 → 模型从动作预测后果,监督正动力学:"这个动作的后果是什么?"

附录 A.9 用一个验证实验佐证这点:固定 ground-truth 未来状态、逐步加噪后让模型生成动作,动作 MSE 随噪声单调上升(0 噪声 0.0318 → 满噪声 0.0865),说明模型确实在利用跨模态依赖,而非表面对齐。

3.3 异步联合采样:推理时缩放

推理时两模态并行采样,互为约束。但二者需求不对称:高维视觉嵌入通常需要更多去噪步,低维动作步数少即收敛、步数太多反而掉点。DUST 据此提出异步前向 Euler 采样

  • 动作固定 NA 步;视觉用更多的 No=q×NA 步(qN);
  • 全局步长 Δτo=1/No,视觉 token 每步都更新,动作 token q 步才更新一次(步长 ΔτA=1/NA=qΔτo):
o~t+kτo+Δτo=o~t+kτo+VθoΔτo,AtτA+ΔτA={AtτA+VθAΔτA,if τANomodq=0AtτA,otherwise

主实验取 q=1No=NA=4)与基线公平对比;增大 q(即 No)即可在推理速度与预测精度间做可调权衡。


四、实验结果

统一设置:冻结 Eagle-2 VLM + 随机初始化的扩散动作专家。世界建模目标 = Eagle-2 产出的 SigLIP-2 嵌入,每图 256 token → 2×2 平均池化为 64 token。扩散模块共处理 1 个状态 token + 16 个动作 token + 64 个未来图像 token。λWM=1.0。FLARE 基线因官方未开源被复现(去掉 Q-former,用 REPA 式 MLP 对齐头 + 同样的 SigLIP-2 目标)。

4.1 仿真主结果

RoboCasa(24 任务)平均成功率:

Method100 demos300 demos1000 demos
π₀43.043.945.9
GR00T-N1.541.745.050.8
+ FLARE†44.655.364.6
+ DUST50.158.566.3

GR-1 人形(24 任务)平均成功率:

Method300 demos1000 demos
GR00T-N1.520.330.8
+ FLARE†33.736.3
+ DUST36.042.0

DUST 在所有数据规模、所有任务类别上稳定领先;RoboCasa 100 demos 时较 GR00T-N1.5 高 18%、较 FLARE 高 5%,数据效率与可扩展性兼得。附录中 LIBERO 上 DUST 96.2 = FLARE 96.2(并列最高),CALVIN ABC-D 平均链长 DUST 3.91 > FLARE 3.75。

4.2 真实 Franka Research 3(7 任务:4 PnP + 1 插入 + 2 工具使用)

Method平均成功率
π₀40.2
GR00T-N1.546.5
+ FLARE†49.5
+ DUST59.9

DUST 在每个任务上都最高,平均较 GR00T-N1.5 高 13%、较 FLARE 高 10.4%,涵盖从标准抓放到精密插线、工具擦写等复杂操作。

4.3 迁移学习

人机异构联合训练(RoboCasa 300 + GR-1 300 + EgoDex 人类第一视角视频 46k 条,经 MANO 手姿估计重定向到 Fourier 灵巧手动作空间):DUST 平均成功率 58.5 → 64.4(+5.9),增益大于 FLARE(55.3 → 57.6)与 GR00T(45.0 → 46.9)。世界建模把异构动作空间对齐到共享表示空间,化解了直接动作回归时的目标分布冲突。

无动作视频预训练(BridgeV2 纯视频,只训世界建模项、动作 token 随机初始化,再用 RoboCasa 100 demos 微调):DUST 50.1 → 58.5;FLARE 44.6 → 55.1。DUST 的双流架构天然适配此设定。

4.4 推理时缩放与效率

异步缩放(Table 6,增大 NoNA 固定 4):RoboCasa 64 步约 +2–3%(100 demos 50.1→51.8,1000 demos 66.3→69.7);GR-1 32 步 +5%(42.0→47.1)。附录 A.2 证明同步增大两模态步数反而掉点(Table 11),印证"只有视觉需要更多步"的假设,异步是缩放奏效的关键。增步在确定性 ODE 求解器下偶有非单调(如 GR-1 No=64)。

速度(RTX 5090 + TorchInductor):DUST 4 步 24.6 ms(~40 Hz),比 π₀(~13 Hz)、OpenVLA(~5.5 Hz)、π₀-FAST(~3 Hz)快 3–10×;即便 32 步缩放仍维持 ~8 Hz,满足闭环控制。

4.5 消融

架构 × 噪声(RoboCasa 100,Table 7a)——两个设计缺一不可:

架构噪声Avg.
DiT联合38.0
DiT解耦42.5
MMDiT联合38.2
MMDiT解耦50.1

去掉双流结构掉 8%,去掉解耦噪声掉 12%——MMDiT 负责结构化跨模态表示学习,解耦噪声负责让每模态学因果关系。

其他:MMDiT 层数(总 16 层)取 12 最优(47.4→48.3→50.1→49.3);λWM[0.5,2.0] 稳定(0.2→34.3, 1.0→50.1, 2.0→49.6),需大致等权两目标;Latent embedder(Table 8):SigLIP-2 50.1、DINOv2 51.6、Flux.1 VAE 49.1——重建型 VAE latent 即便像素重建更强也不带来增益,语义嵌入才是好目标

附录 A.10 还显示:推理时完全关闭视觉去噪(0 步)仍达 47.9%,超过 GR00T-N1.5(41.7)与 FLARE(44.6)——世界建模训练已把因果结构内化进 MMDiT 的表示中,可作超低延迟模式。


五、局限性与未来方向

  • 依赖视觉预测,怕遮挡(附录 A.11):DUST 靠预测未来视觉来"预判落点",当观测被手臂/夹爪自遮挡或相机视野不佳时,这一核心优势反被削弱,真实任务 PnP-4 失败率偏高即源于此。
  • 仅从当前状态预测:当前 formulation 不含历史。引入多帧历史可为世界建模提供时序上下文,抵抗瞬时视觉噪声/遮挡。
  • 缓解方向:增加相机视角、加强本体状态先验、引入历史观测。

六、个人思考

6.1 与 FLARE 的正面交锋:隐式对齐 vs. 显式双流扩散

DUST 把 FLARE 当作头号 baseline,二者是同一问题(嵌入空间世界建模增强 VLA)的两种答卷,对比极具教学意义:

FLAREDUST
世界建模方式隐式:DiT 中间层 future token 激活与未来嵌入做 cos 对齐,不生成显式:视觉流通过扩散生成未来嵌入
信息流向future token 经自注意力软交互,本质偏单向辅助MMDiT 共享注意力 + 解耦噪声,显式双向(正/逆动力学)
推理开销零(future token 仅训练用)默认 4 步约 40 Hz;可关视觉步退化为零开销模式
目标嵌入自训的动作感知 Q-former 嵌入(论文最优配置)VLM 自带的 SigLIP-2 嵌入

DUST 在 RoboCasa/GR-1/真实 Franka 上稳定超 FLARE 5–10%。但有一个重要公平性 caveat:DUST 复现的 FLARE 去掉了 Q-former、改用 REPA 式 MLP 对齐头(因 FLARE 未开源)。而 FLARE 原论文消融恰恰表明,动作感知 Q-former 嵌入(55.0%)显著优于通用 SigLIP-2(49.6%)。换言之,DUST 比的是"简化版 FLARE",把 FLARE 的隐式对齐机制与它的动作感知 teacher 解耦后单独对比。这说明 DUST 的增益主要来自双向因果建模机制本身,而非 teacher 质量——但也意味着"DUST + 动作感知嵌入"是一个尚未被探索、可能更强的组合。

6.2 解耦噪声 = 把"正/逆动力学"免费塞进训练

我认为 3.2 是全文最漂亮的一招。标准联合扩散同步加噪,模型永远只见"两边一样脏"。而独立 (τA,τo) 让训练自然覆盖"一边干净一边噪声"的极端组合,等价于同时训练正向世界模型与逆动力学模型,且不需要任何额外的损失项或网络分支——只是改了加噪调度。这与 DreamVLA 用 block-wise 注意力显式隔离三类知识、FutureVLA双流解耦监督的思路殊途同归:都在强调"让不同子目标各自独立地学,再受控地交互"。三者可以看作"解耦"在不同层面的实现——DUST 在噪声调度层面,DreamVLA 在注意力层面,FutureVLA 在监督层面。

6.3 异步采样:把"模态需要不同步数"这件事制度化

"动作步数少即收敛、视觉需要多步"几乎是所有联合 VLA 的隐痛,多数工作只能取折中。DUST 用异步积分把它显式参数化为可调的 q,并用同步缩放反例(附录 A.2)证明这不是锦上添花而是必要设计。这点对 OptimusVLA 的自适应 NFE、以及一切"扩散动作头 + 视觉预测"的架构都有借鉴价值。

6.4 一个有趣的"出身"线索

本文作者 Huiwon Jang、Jinwoo Shin 正是 REPA(Yu, Kwak, Jang, …, Shin, Xie, ICLR 2025)的作者——而 REPA 又是 FLARE 隐式对齐的直接灵感来源。也就是说,DUST 团队对"表示对齐式世界建模"知根知底,转而提出"显式双流扩散"路线,某种程度上是对自家 REPA→FLARE 路线的一次"反向论证":表示对齐之外,显式的双向扩散生成同样(甚至更)有效。


参考

  • FLARE(Zheng et al., 2025):隐式未来潜在对齐世界模型,DUST 的头号对比基线与机制对照
  • GR00T-N1.5(NVIDIA et al., 2025):DUST 的 VLA 底座(Eagle-2 VLM + 扩散动作专家),所有增强都加在其上
  • π₀(Black et al., 2025):流匹配 VLA 基础,提供动作专家范式与 Beta 时间步采样
  • Diffusion Forcing(Chen et al., 2025):per-token 独立噪声,DUST 解耦训练改造为 per-modality 方案的灵感来源
  • Diffuse Everything(Rojas et al., 2025):证明独立加噪下联合扩散目标可分解为单模态损失之和,DUST 解耦损失的理论依据
  • MMDiT / SD3(Esser et al., 2024):多模态扩散 Transformer 架构,DUST 双流的骨架
  • REPA(Yu et al., 2025):表示对齐加速扩散,本文作者同组工作,亦是 FLARE 的灵感来源
  • DINO-WM(Zhou et al., 2024):嵌入空间世界模型路线的同道,支持"用预训练编码器表示替代像素重建"