Skip to content

Fast-WAM:世界动作模型真的需要测试时未来想象吗?

论文Fast-WAM: Do World Action Models Need Test-time Future Imagination?

作者:Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao

机构:清华大学 IIIS + Galaxea AI

发布时间:2026 年 3 月(arXiv 2603.16666v2)

🔗 arXiv | 项目主页

发表状态:未录用

分类标签World Action Model 视频协同训练 Flow Matching MoT 架构 测试时加速 LIBERO RoboTwin


一句话总结

将世界动作模型(WAM)的两个因素拆解——训练时视频协同目标与测试时未来想象——发现前者是性能的主要来源;提出 Fast-WAM:训练时保留视频预测监督、推理时跳过未来视频生成,190 ms 单步延迟比现有 imagine-then-execute 方案快 4 倍以上,在 RoboTwin 和 LIBERO 上无需具身预训练即与 SOTA 持平。


一、问题与动机

1.1 WAM 范式与测试时瓶颈

**世界动作模型(WAM)**在具身控制中将未来视觉观测显式建模为中间变量,形成 imagine-then-execute 范式:

p(a1:Ho,l)=p(v1:To,l)p(a1:Ho,l,v1:T)dv1:T

其中 v1:T 是预测视域内的未来视觉帧,a1:H 是动作块,o 是当前观测,l 是任务指令。这一范式的代价是测试时需要迭代式视频去噪,引入 580–810 ms 的推理延迟,制约了实时部署。

1.2 两个混淆的因素

WAM 的效果可能来自两个不同的来源,但既有方法将两者耦合在一起:

因素作用阶段假说
视频预测训练目标(video co-training)训练时迫使模型学习物理动力学,形成更好的潜在世界表征
显式未来视频生成(explicit future imagination)测试时为动作预测提供额外的前瞻信息

核心问题:WAM 的性能优势究竟来自哪个因素?如果主要来自训练时的视频预测目标,那么测试时的未来视频合成就是不必要的计算开销。

1.3 相关工作对比

类型代表方法训练时视频目标测试时视频生成
联合建模 WAMUWM、Motus✓(联合去噪)
因果 WAMLingBot-VA、ViDAR✓(先生成再推理)
VPPVPP✓(预训练)✓(条件特征提取)
UVAUVA✗(跳过视频解码)
Fast-WAM(本文)✗(完全跳过)

二、方法

2.1 Fast-WAM 设计思路

Fast-WAM 的核心理念:将训练时视频协同目标与测试时未来想象解耦。训练时保留视频预测监督以获取物理先验;推理时仅保留第一帧的干净潜在 token,单次前向传播生成动作。

推理阶段的分布仅依赖当前上下文:

pθ(a1:Ho,l)=pθ(a1:Hz(o,l))

其中 z(o,l) 是视频 DiT 在单次前向传播中产生的潜在世界表征。

2.2 架构:Mixture-of-Transformer

Fast-WAM 基于 Wan2.2-5B 视频 DiT 作为世界建模骨架,引入 Action Expert DiT(隐维 da=1024,约 1B 参数),组成共享注意力的 MoT 架构,总参数 6B。

输入 token 分三组:

  1. 干净第一帧潜在 token(clean first-frame latent):作为共享视觉锚点,训练和推理均使用
  2. 未来视频噪声 token(noisy future latents):仅训练时使用,提供视频预测监督
  3. 动作 token(action tokens):经 Action Expert DiT 生成动作块

结构化注意力掩码控制信息流(关键设计):

关系训练推理
未来视频 token 之间双向注意力不存在
动作 token 之间双向注意力双向注意力
动作 token → 第一帧
动作 token → 未来视频✗(隔断)不适用
第一帧 → 其他 token✗(无输出注意力)

动作 token 不能看到未来视频 token,确保动作预测在训练和推理之间行为一致——训练时有未来视频也不会 "泄漏" 给动作分支。

2.3 训练目标:联合流匹配

对目标变量 y(动作块 a1:H 或未来视频潜在 z1:T),构造插值样本:

yt=(1t)y+tϵ,ϵN(0,I),t(0,1)

流匹配损失为:

LFM(y)=Ey,ϵ,t[fθ(yt,t,o,l)(ϵy)22]

分别对动作和视频各实例化一次:

Lact=LFM(a1:H),Lvid=LFM(z1:T)

总目标:

L=Lact+λLvid

λ 平衡动作学习与视频协同训练。

用大白话说:模型在训练时同时被要求"根据当前帧生成动作"和"根据当前帧+动作预测未来帧",两个任务共享视频 DiT 权重。但测试时只执行第一个任务,未来帧那条分支直接丢掉。视频任务在训练中逼迫视频 DiT 学会物理动力学,这种能力被迁移到动作生成的表征质量上。

2.4 受控对照变体

为回答核心问题,设计了 4 个共享骨架的变体:

变体训练时视频目标测试时视频生成推理范式
Fast-WAM(本文)单次前向传播
Fast-WAM-Joint视频+动作联合去噪
Fast-WAM-IDM先生成视频,再预测动作
Fast-WAM w.o. co-train单次前向传播
  • Fast-WAM-Joint 对应联合建模范式(Motus、UWM)
  • Fast-WAM-IDM 对应因果 WAM 范式(LingBot-VA),推理时先去噪未来视频再条件化动作;参考 LingBot-VA,以概率 p=0.5 对真实视频 token 加噪增强
  • Fast-WAM w.o. co-train 是纯控制组,剥离视频协同目标,架构与推理不变

三、实验结果

3.1 实现细节

  • 骨架:Wan2.2-5B,含视频 DiT、T5 文本编码器、视频 VAE
  • 动作 expert:与视频 branch 同架构,隐维 1024,参数 ~1B;总模型 6B
  • 动作视域 h=32,视频帧 4× 时序下采样后每块 9 帧
  • 去噪步数:10 步,CFG scale 1.0
  • 优化器:AdamW,lr 104,weight decay 0.01,cosine 退火,梯度裁剪 1.0
  • 延迟测量设备:单卡 NVIDIA RTX 5090D V2 32GB

3.2 RoboTwin 主实验

RoboTwin 2.0 包含超过 50 个双臂协作任务;训练数据 2,500(干净)+ 25,000(场景随机化),各任务 100 试验报成功率。

方法具身预训练CleanRand.平均
π₀65.9258.4062.2
π₀.₅82.7476.7679.8
Motus88.6687.0287.8
Motus from WAN2.277.5677.0077.3
LingBot-VA92.9091.5092.2
LingBot-VA from WAN2.280.6080.6
Fast-WAM(本文)91.8891.7891.8

受控变体对比:

变体具身预训练CleanRand.平均
Fast-WAM91.8891.7891.8
Fast-WAM-Joint90.8490.3290.6
Fast-WAM-IDM91.1691.3491.3
Fast-WAM w.o. video co-train82.7684.8083.8

三个带视频协同目标的变体互相持平(91.8/90.6/91.3),而去掉视频协同目标后骤降至 83.8(-8%),远大于有无未来想象之间的差距(<1.2%)。

3.3 LIBERO 主实验

LIBERO 四个子任务,各 500 条演示,训练 20k 步,2000 试验。

方法具身预训练SpatialObjectGoalLong平均
OpenVLA84.788.479.253.776.5
π₀96.898.895.885.294.1
π₀.₅98.898.298.092.496.9
LingBot-VA98.599.697.298.598.5
Motus96.899.896.697.697.7
Fast-WAM(本文)98.2100.097.095.297.6
Fast-WAM-Joint99.699.498.296.898.5
Fast-WAM-IDM98.897.897.897.698.0
Fast-WAM w.o. video co-train89.299.295.490.093.5

模式一致:去掉视频协同目标下降 4.1%(97.6→93.5),而有无未来想象差距 <1%。

3.4 真实世界折叠毛巾任务

60 小时遥操作演示,Galaxea R1 Lite 平台,同时报告成功率和平均完成时间(完成时间衡量策略效率,越短越好)。

方法具身预训练成功率完成时间 (s)延迟 (ms)
π₀.₅最高最短180
Fast-WAM较短190
Fast-WAM-Joint较长580
Fast-WAM-IDM最高(无预训练)810
Fast-WAM w.o. video co-train仅 10%最长190

Fast-WAM 以 190 ms 实现实时推理,比 Fast-WAM-Joint 快 3×、比 Fast-WAM-IDM 快 4.3×。去掉视频协同训练的变体在真实世界任务上成功率骤降至 10%,差距比仿真更大,进一步验证了视频协同目标的关键性。


四、局限性

  1. 单动作块范式:实验聚焦于单块动作生成,省略了外层自回归循环(outer AR rollout)——对长时域任务是否仍然充分有待验证
  2. 预训练规模未探索:训练数据均为任务特定演示,无大规模具身预训练;论文将 "更大规模预训练数据与模型缩放" 列为未来方向,这正是 Fast-WAM 与 LingBot-VA 之间仍有差距的原因
  3. 视频质量的下限:Fast-WAM 不生成视频,但依赖 Wan2.2-5B 的预训练视觉表征质量——骨架质量对最终效果至关重要,跨不同视频 DiT 的泛化性未验证

五、个人思考

5.1 与 WorldVLA 的关键对比

两者都试图回答 "世界模型如何帮助动作策略",但结论和机制截然不同:

维度WorldVLA(Jun Cen et al., 2025)Fast-WAM(本文)
基础骨架Chameleon(自回归 LLM)Wan2.2-5B(视频 DiT)
世界模型作用训练辅助任务 + 测试时可生成未来帧纯训练辅助目标,测试时完全跳过
两者是否相互看到共享权重,联合解码动作分支不看未来视频(mask 隔断)
动作表示离散 token(256 bin)连续向量(流匹配)
核心结论世界模型+动作模型双向增强训练时视频目标 >> 测试时视频生成

Fast-WAM 最重要的贡献是受控实验设计:通过四个共享骨架的变体,精确量化了两个因素各自的贡献,得到了比 WorldVLA 更清晰的因果结论。

5.2 "训练时 > 测试时" 的直觉

这一结论有深刻的直觉:视频预测目标迫使模型建立 物体-动作-结果 的因果关联,这种因果表征被编码进 video DiT 的权重,在推理时以潜在表征 z(o,l) 的形式隐式复用。显式未来视频的作用相当于 "把隐含的中间步骤显式化"——如果模型足够强大,隐式表征已经足够。

这与人类技能习得的模式类似:老司机开车时不需要在脑中 "想象" 每一步的画面,训练形成的直觉已经包含了足够的预见性。

5.3 与 GigaBrain、RISE 等世界模型 RL 工作的关系

GigaBrain、RISE、SC-VLA 等工作也用世界模型预测未来,但它们用的是显式 rollout + RL 奖励:世界模型生成未来状态 → 评估奖励 → 更新策略。Fast-WAM 的对照实验 (Fast-WAM-IDM) 接近这条路线(先生成视频再决策),但实验显示其提升边际小于 1%。这说明:rollout 的价值可能主要在于提供更多训练信号(想象回合),而非在推理时直接条件化

5.4 MoT 架构中 KV Cache 的作用

Fast-WAM 在推理时对第一帧潜在 token 做一次前向传播后缓存 KV,然后对动作进行去噪(10 步)。这意味着视觉编码只做 1 次,动作去噪的 10 步可以复用同一 KV Cache,实质上是将 "视觉理解" 和 "动作生成" 的计算解耦,这是 190 ms 低延迟的关键来源之一。Fast-WAM-IDM 的 810 ms 高延迟正是因为需要先完整去噪未来视频(多步)才能开始动作去噪。

5.5 方法论启示:受控消融设计

Fast-WAM 最值得借鉴的不是模型本身,而是用共享骨架的受控变体回答 "哪个因素更重要" 这种研究范式。类似的问题在 VLA 领域很普遍(如 VLA 中的视觉预训练 vs. 指令跟随数据、世界模型中的规模 vs. 架构),但往往因为变体之间骨架不同而难以得出干净结论。


参考

  • Wan2.2-5B(Team Wan et al., 2025):视频生成 DiT 骨架,Fast-WAM 的核心预训练模型
  • LingBot-VA(Li et al., 2026,arXiv 2601.21998):causal WAM 代表,Fast-WAM-IDM 的设计参考
  • Motus(Bi et al., 2025,arXiv 2512.13030):联合建模 WAM,Fast-WAM-Joint 的设计参考
  • UVA(Li et al., 2025,arXiv 2503.00200):测试时跳过视频解码的统一视频动作模型,与 Fast-WAM 思路最接近
  • VPP(Hu et al., 2024,arXiv 2412.14803):从视频扩散模型中提取预测视觉表征用于策略
  • π₀.₅(Physical Intelligence, 2025,arXiv 2504.16054):具身预训练 VLA 基线,真实世界实验中的最强对比
  • LIBERO(Liu et al., 2023,arXiv 2306.03310):终身机器人学习基准,4 个子任务集
  • RoboTwin 2.0(Chen et al., 2025,arXiv 2506.18088):双臂操作基准,50+ 任务,强场景随机化
  • WorldVLA(Cen et al., 2025):自回归统一动作+世界模型,相同研究问题下的不同路线