Fast-WAM：世界动作模型真的需要测试时未来想象吗？

论文：Fast-WAM: Do World Action Models Need Test-time Future Imagination?
作者：Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao
机构：清华大学 IIIS + Galaxea AI
发布时间：2026 年 3 月（arXiv 2603.16666v2）
🔗 arXiv | 项目主页
发表状态：未录用
分类标签：World Action Model 视频协同训练 Flow Matching MoT 架构 测试时加速 LIBERO RoboTwin

一句话总结

将世界动作模型（WAM）的两个因素拆解——训练时视频协同目标与测试时未来想象——发现前者是性能的主要来源；提出 Fast-WAM：训练时保留视频预测监督、推理时跳过未来视频生成，190 ms 单步延迟比现有 imagine-then-execute 方案快 4 倍以上，在 RoboTwin 和 LIBERO 上无需具身预训练即与 SOTA 持平。

一、问题与动机

1.1 WAM 范式与测试时瓶颈

**世界动作模型（WAM）**在具身控制中将未来视觉观测显式建模为中间变量，形成 imagine-then-execute 范式：

p (a_{1 : H} ∣ o, l) = \int p (v_{1 : T} ∣ o, l) p (a_{1 : H} ∣ o, l, v_{1 : T}) d v_{1 : T}

其中 $v_{1 : T}$ 是预测视域内的未来视觉帧， $a_{1 : H}$ 是动作块， $o$ 是当前观测， $l$ 是任务指令。这一范式的代价是测试时需要迭代式视频去噪，引入 580–810 ms 的推理延迟，制约了实时部署。

1.2 两个混淆的因素

WAM 的效果可能来自两个不同的来源，但既有方法将两者耦合在一起：

因素	作用阶段	假说
视频预测训练目标（video co-training）	训练时	迫使模型学习物理动力学，形成更好的潜在世界表征
显式未来视频生成（explicit future imagination）	测试时	为动作预测提供额外的前瞻信息

核心问题：WAM 的性能优势究竟来自哪个因素？如果主要来自训练时的视频预测目标，那么测试时的未来视频合成就是不必要的计算开销。

1.3 相关工作对比

类型	代表方法	训练时视频目标	测试时视频生成
联合建模 WAM	UWM、Motus	✓	✓（联合去噪）
因果 WAM	LingBot-VA、ViDAR	✓	✓（先生成再推理）
VPP	VPP	✓（预训练）	✓（条件特征提取）
UVA	UVA	✓	✗（跳过视频解码）
Fast-WAM（本文）	—	✓	✗（完全跳过）

二、方法

2.1 Fast-WAM 设计思路

Fast-WAM 的核心理念：将训练时视频协同目标与测试时未来想象解耦。训练时保留视频预测监督以获取物理先验；推理时仅保留第一帧的干净潜在 token，单次前向传播生成动作。

推理阶段的分布仅依赖当前上下文：

p_{θ} (a_{1 : H} ∣ o, l) = p_{θ} (a_{1 : H} ∣ z (o, l))

其中 $z (o, l)$ 是视频 DiT 在单次前向传播中产生的潜在世界表征。

2.2 架构：Mixture-of-Transformer

Fast-WAM 基于 Wan2.2-5B 视频 DiT 作为世界建模骨架，引入 Action Expert DiT（隐维 $d_{a} = 1024$ ，约 1B 参数），组成共享注意力的 MoT 架构，总参数 6B。

输入 token 分三组：

干净第一帧潜在 token（clean first-frame latent）：作为共享视觉锚点，训练和推理均使用
未来视频噪声 token（noisy future latents）：仅训练时使用，提供视频预测监督
动作 token（action tokens）：经 Action Expert DiT 生成动作块

结构化注意力掩码控制信息流（关键设计）：

关系	训练	推理
未来视频 token 之间	双向注意力	不存在
动作 token 之间	双向注意力	双向注意力
动作 token → 第一帧	✓	✓
动作 token → 未来视频	✗（隔断）	不适用
第一帧 → 其他 token	✗（无输出注意力）	✗

动作 token 不能看到未来视频 token，确保动作预测在训练和推理之间行为一致——训练时有未来视频也不会 "泄漏" 给动作分支。

2.3 训练目标：联合流匹配

对目标变量 $y$ （动作块 $a_{1 : H}$ 或未来视频潜在 $z_{1 : T}$ ），构造插值样本：

y_{t} = (1 - t) y + t ϵ, ϵ \sim N (0, I), t \in (0, 1)

流匹配损失为：

L_{F M} (y) = E_{y, ϵ, t} [‖ f_{θ} (y_{t}, t, o, l) - (ϵ - y) ‖_{2}^{2}]

分别对动作和视频各实例化一次：

L_{a c t} = L_{F M} (a_{1 : H}), L_{v i d} = L_{F M} (z_{1 : T})

总目标：

L = L_{a c t} + λ L_{v i d}

$λ$ 平衡动作学习与视频协同训练。

用大白话说：模型在训练时同时被要求"根据当前帧生成动作"和"根据当前帧+动作预测未来帧"，两个任务共享视频 DiT 权重。但测试时只执行第一个任务，未来帧那条分支直接丢掉。视频任务在训练中逼迫视频 DiT 学会物理动力学，这种能力被迁移到动作生成的表征质量上。

2.4 受控对照变体

为回答核心问题，设计了 4 个共享骨架的变体：

变体	训练时视频目标	测试时视频生成	推理范式
Fast-WAM（本文）	✓	✗	单次前向传播
Fast-WAM-Joint	✓	✓	视频+动作联合去噪
Fast-WAM-IDM	✓	✓	先生成视频，再预测动作
Fast-WAM w.o. co-train	✗	✗	单次前向传播

Fast-WAM-Joint 对应联合建模范式（Motus、UWM）
Fast-WAM-IDM 对应因果 WAM 范式（LingBot-VA），推理时先去噪未来视频再条件化动作；参考 LingBot-VA，以概率 $p = 0.5$ 对真实视频 token 加噪增强
Fast-WAM w.o. co-train 是纯控制组，剥离视频协同目标，架构与推理不变

三、实验结果

3.1 实现细节

骨架：Wan2.2-5B，含视频 DiT、T5 文本编码器、视频 VAE
动作 expert：与视频 branch 同架构，隐维 1024，参数 ~1B；总模型 6B
动作视域 $h = 32$ ，视频帧 4× 时序下采样后每块 9 帧
去噪步数：10 步，CFG scale 1.0
优化器：AdamW，lr $10^{- 4}$ ，weight decay 0.01，cosine 退火，梯度裁剪 1.0
延迟测量设备：单卡 NVIDIA RTX 5090D V2 32GB

3.2 RoboTwin 主实验

RoboTwin 2.0 包含超过 50 个双臂协作任务；训练数据 2,500（干净）+ 25,000（场景随机化），各任务 100 试验报成功率。

方法	具身预训练	Clean	Rand.	平均
π₀	✓	65.92	58.40	62.2
π₀.₅	✓	82.74	76.76	79.8
Motus	✓	88.66	87.02	87.8
Motus from WAN2.2	✗	77.56	77.00	77.3
LingBot-VA	✓	92.90	91.50	92.2
LingBot-VA from WAN2.2	✗	80.60	—	80.6
Fast-WAM（本文）	✗	91.88	91.78	91.8

受控变体对比：

变体	具身预训练	Clean	Rand.	平均
Fast-WAM	✗	91.88	91.78	91.8
Fast-WAM-Joint	✗	90.84	90.32	90.6
Fast-WAM-IDM	✗	91.16	91.34	91.3
Fast-WAM w.o. video co-train	✗	82.76	84.80	83.8

三个带视频协同目标的变体互相持平（91.8/90.6/91.3），而去掉视频协同目标后骤降至 83.8（-8%），远大于有无未来想象之间的差距（<1.2%）。

3.3 LIBERO 主实验

LIBERO 四个子任务，各 500 条演示，训练 20k 步，2000 试验。

方法	具身预训练	Spatial	Object	Goal	Long	平均
OpenVLA	✓	84.7	88.4	79.2	53.7	76.5
π₀	✓	96.8	98.8	95.8	85.2	94.1
π₀.₅	✓	98.8	98.2	98.0	92.4	96.9
LingBot-VA	✓	98.5	99.6	97.2	98.5	98.5
Motus	✓	96.8	99.8	96.6	97.6	97.7
Fast-WAM（本文）	✗	98.2	100.0	97.0	95.2	97.6
Fast-WAM-Joint	✗	99.6	99.4	98.2	96.8	98.5
Fast-WAM-IDM	✗	98.8	97.8	97.8	97.6	98.0
Fast-WAM w.o. video co-train	✗	89.2	99.2	95.4	90.0	93.5

模式一致：去掉视频协同目标下降 4.1%（97.6→93.5），而有无未来想象差距 <1%。

3.4 真实世界折叠毛巾任务

60 小时遥操作演示，Galaxea R1 Lite 平台，同时报告成功率和平均完成时间（完成时间衡量策略效率，越短越好）。

方法	具身预训练	成功率	完成时间 (s)	延迟 (ms)
π₀.₅	✓	最高	最短	180
Fast-WAM	✗	高	较短	190
Fast-WAM-Joint	✗	高	较长	580
Fast-WAM-IDM	✗	最高（无预训练）	—	810
Fast-WAM w.o. video co-train	✗	仅 10%	最长	190

Fast-WAM 以 190 ms 实现实时推理，比 Fast-WAM-Joint 快 3×、比 Fast-WAM-IDM 快 4.3×。去掉视频协同训练的变体在真实世界任务上成功率骤降至 10%，差距比仿真更大，进一步验证了视频协同目标的关键性。

四、局限性

单动作块范式：实验聚焦于单块动作生成，省略了外层自回归循环（outer AR rollout）——对长时域任务是否仍然充分有待验证
预训练规模未探索：训练数据均为任务特定演示，无大规模具身预训练；论文将 "更大规模预训练数据与模型缩放" 列为未来方向，这正是 Fast-WAM 与 LingBot-VA 之间仍有差距的原因
视频质量的下限：Fast-WAM 不生成视频，但依赖 Wan2.2-5B 的预训练视觉表征质量——骨架质量对最终效果至关重要，跨不同视频 DiT 的泛化性未验证

五、个人思考

5.1 与 WorldVLA 的关键对比

两者都试图回答 "世界模型如何帮助动作策略"，但结论和机制截然不同：

维度	WorldVLA（Jun Cen et al., 2025）	Fast-WAM（本文）
基础骨架	Chameleon（自回归 LLM）	Wan2.2-5B（视频 DiT）
世界模型作用	训练辅助任务 + 测试时可生成未来帧	纯训练辅助目标，测试时完全跳过
两者是否相互看到	共享权重，联合解码	动作分支不看未来视频（mask 隔断）
动作表示	离散 token（256 bin）	连续向量（流匹配）
核心结论	世界模型+动作模型双向增强	训练时视频目标 >> 测试时视频生成

Fast-WAM 最重要的贡献是受控实验设计：通过四个共享骨架的变体，精确量化了两个因素各自的贡献，得到了比 WorldVLA 更清晰的因果结论。

5.2 "训练时 > 测试时" 的直觉

这一结论有深刻的直觉：视频预测目标迫使模型建立 物体-动作-结果 的因果关联，这种因果表征被编码进 video DiT 的权重，在推理时以潜在表征 $z (o, l)$ 的形式隐式复用。显式未来视频的作用相当于 "把隐含的中间步骤显式化"——如果模型足够强大，隐式表征已经足够。

这与人类技能习得的模式类似：老司机开车时不需要在脑中 "想象" 每一步的画面，训练形成的直觉已经包含了足够的预见性。

5.3 与 GigaBrain、RISE 等世界模型 RL 工作的关系

GigaBrain、RISE、SC-VLA 等工作也用世界模型预测未来，但它们用的是显式 rollout + RL 奖励：世界模型生成未来状态 → 评估奖励 → 更新策略。Fast-WAM 的对照实验 (Fast-WAM-IDM) 接近这条路线（先生成视频再决策），但实验显示其提升边际小于 1%。这说明：rollout 的价值可能主要在于提供更多训练信号（想象回合），而非在推理时直接条件化。

5.4 MoT 架构中 KV Cache 的作用

Fast-WAM 在推理时对第一帧潜在 token 做一次前向传播后缓存 KV，然后对动作进行去噪（10 步）。这意味着视觉编码只做 1 次，动作去噪的 10 步可以复用同一 KV Cache，实质上是将 "视觉理解" 和 "动作生成" 的计算解耦，这是 190 ms 低延迟的关键来源之一。Fast-WAM-IDM 的 810 ms 高延迟正是因为需要先完整去噪未来视频（多步）才能开始动作去噪。

5.5 方法论启示：受控消融设计

Fast-WAM 最值得借鉴的不是模型本身，而是用共享骨架的受控变体回答 "哪个因素更重要" 这种研究范式。类似的问题在 VLA 领域很普遍（如 VLA 中的视觉预训练 vs. 指令跟随数据、世界模型中的规模 vs. 架构），但往往因为变体之间骨架不同而难以得出干净结论。

参考

Wan2.2-5B（Team Wan et al., 2025）：视频生成 DiT 骨架，Fast-WAM 的核心预训练模型
LingBot-VA（Li et al., 2026，arXiv 2601.21998）：causal WAM 代表，Fast-WAM-IDM 的设计参考
Motus（Bi et al., 2025，arXiv 2512.13030）：联合建模 WAM，Fast-WAM-Joint 的设计参考
UVA（Li et al., 2025，arXiv 2503.00200）：测试时跳过视频解码的统一视频动作模型，与 Fast-WAM 思路最接近
VPP（Hu et al., 2024，arXiv 2412.14803）：从视频扩散模型中提取预测视觉表征用于策略
π₀.₅（Physical Intelligence, 2025，arXiv 2504.16054）：具身预训练 VLA 基线，真实世界实验中的最强对比
LIBERO（Liu et al., 2023，arXiv 2306.03310）：终身机器人学习基准，4 个子任务集
RoboTwin 2.0（Chen et al., 2025，arXiv 2506.18088）：双臂操作基准，50+ 任务，强场景随机化
WorldVLA（Cen et al., 2025）：自回归统一动作+世界模型，相同研究问题下的不同路线

02 Alignment & Safety

04 Multimodal

VLM

幻觉缓解

Token 压缩

视频生成

06 Embodied AI

VLA

基础模型

高效推理

推理增强

RL 后训练

World Models

Imitation Learning

09 Evaluation

10 Reinforcement Learning

Fast-WAM：世界动作模型真的需要测试时未来想象吗？

一句话总结

一、问题与动机

1.1 WAM 范式与测试时瓶颈

1.2 两个混淆的因素

1.3 相关工作对比

二、方法

2.1 Fast-WAM 设计思路

2.2 架构：Mixture-of-Transformer

2.3 训练目标：联合流匹配

2.4 受控对照变体

三、实验结果

3.1 实现细节

3.2 RoboTwin 主实验

3.3 LIBERO 主实验

3.4 真实世界折叠毛巾任务

四、局限性

五、个人思考

5.1 与 WorldVLA 的关键对比

5.2 "训练时 > 测试时" 的直觉

5.3 与 GigaBrain、RISE 等世界模型 RL 工作的关系

5.4 MoT 架构中 KV Cache 的作用

5.5 方法论启示：受控消融设计

参考

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

Fast-WAM：世界动作模型真的需要测试时未来想象吗？ ​

一句话总结 ​

一、问题与动机 ​

1.1 WAM 范式与测试时瓶颈 ​

1.2 两个混淆的因素 ​

1.3 相关工作对比 ​

二、方法 ​

2.1 Fast-WAM 设计思路 ​

2.2 架构：Mixture-of-Transformer ​

2.3 训练目标：联合流匹配 ​

2.4 受控对照变体 ​

三、实验结果 ​

3.1 实现细节 ​

3.2 RoboTwin 主实验 ​

3.3 LIBERO 主实验 ​

3.4 真实世界折叠毛巾任务 ​

四、局限性 ​

五、个人思考 ​

5.1 与 WorldVLA 的关键对比 ​

5.2 "训练时 > 测试时" 的直觉 ​

5.3 与 GigaBrain、RISE 等世界模型 RL 工作的关系 ​

5.4 MoT 架构中 KV Cache 的作用 ​

5.5 方法论启示：受控消融设计 ​

参考 ​

Fast-WAM：世界动作模型真的需要测试时未来想象吗？

一句话总结

一、问题与动机

1.1 WAM 范式与测试时瓶颈

1.2 两个混淆的因素

1.3 相关工作对比

二、方法

2.1 Fast-WAM 设计思路

2.2 架构：Mixture-of-Transformer

2.3 训练目标：联合流匹配

2.4 受控对照变体

三、实验结果

3.1 实现细节

3.2 RoboTwin 主实验

3.3 LIBERO 主实验

3.4 真实世界折叠毛巾任务

四、局限性

五、个人思考

5.1 与 WorldVLA 的关键对比

5.2 "训练时 > 测试时" 的直觉

5.3 与 GigaBrain、RISE 等世界模型 RL 工作的关系

5.4 MoT 架构中 KV Cache 的作用

5.5 方法论启示：受控消融设计

参考