Fast-WAM:世界动作模型真的需要测试时未来想象吗?
论文:Fast-WAM: Do World Action Models Need Test-time Future Imagination?
作者:Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao
机构:清华大学 IIIS + Galaxea AI
发布时间:2026 年 3 月(arXiv 2603.16666v2)
发表状态:未录用
分类标签:
World Action Model视频协同训练Flow MatchingMoT 架构测试时加速LIBERORoboTwin
一句话总结
将世界动作模型(WAM)的两个因素拆解——训练时视频协同目标与测试时未来想象——发现前者是性能的主要来源;提出 Fast-WAM:训练时保留视频预测监督、推理时跳过未来视频生成,190 ms 单步延迟比现有 imagine-then-execute 方案快 4 倍以上,在 RoboTwin 和 LIBERO 上无需具身预训练即与 SOTA 持平。
一、问题与动机
1.1 WAM 范式与测试时瓶颈
**世界动作模型(WAM)**在具身控制中将未来视觉观测显式建模为中间变量,形成 imagine-then-execute 范式:
其中
1.2 两个混淆的因素
WAM 的效果可能来自两个不同的来源,但既有方法将两者耦合在一起:
| 因素 | 作用阶段 | 假说 |
|---|---|---|
| 视频预测训练目标(video co-training) | 训练时 | 迫使模型学习物理动力学,形成更好的潜在世界表征 |
| 显式未来视频生成(explicit future imagination) | 测试时 | 为动作预测提供额外的前瞻信息 |
核心问题:WAM 的性能优势究竟来自哪个因素?如果主要来自训练时的视频预测目标,那么测试时的未来视频合成就是不必要的计算开销。
1.3 相关工作对比
| 类型 | 代表方法 | 训练时视频目标 | 测试时视频生成 |
|---|---|---|---|
| 联合建模 WAM | UWM、Motus | ✓ | ✓(联合去噪) |
| 因果 WAM | LingBot-VA、ViDAR | ✓ | ✓(先生成再推理) |
| VPP | VPP | ✓(预训练) | ✓(条件特征提取) |
| UVA | UVA | ✓ | ✗(跳过视频解码) |
| Fast-WAM(本文) | — | ✓ | ✗(完全跳过) |
二、方法
2.1 Fast-WAM 设计思路
Fast-WAM 的核心理念:将训练时视频协同目标与测试时未来想象解耦。训练时保留视频预测监督以获取物理先验;推理时仅保留第一帧的干净潜在 token,单次前向传播生成动作。
推理阶段的分布仅依赖当前上下文:
其中
2.2 架构:Mixture-of-Transformer
Fast-WAM 基于 Wan2.2-5B 视频 DiT 作为世界建模骨架,引入 Action Expert DiT(隐维
输入 token 分三组:
- 干净第一帧潜在 token(clean first-frame latent):作为共享视觉锚点,训练和推理均使用
- 未来视频噪声 token(noisy future latents):仅训练时使用,提供视频预测监督
- 动作 token(action tokens):经 Action Expert DiT 生成动作块
结构化注意力掩码控制信息流(关键设计):
| 关系 | 训练 | 推理 |
|---|---|---|
| 未来视频 token 之间 | 双向注意力 | 不存在 |
| 动作 token 之间 | 双向注意力 | 双向注意力 |
| 动作 token → 第一帧 | ✓ | ✓ |
| 动作 token → 未来视频 | ✗(隔断) | 不适用 |
| 第一帧 → 其他 token | ✗(无输出注意力) | ✗ |
动作 token 不能看到未来视频 token,确保动作预测在训练和推理之间行为一致——训练时有未来视频也不会 "泄漏" 给动作分支。
2.3 训练目标:联合流匹配
对目标变量
流匹配损失为:
分别对动作和视频各实例化一次:
总目标:
用大白话说:模型在训练时同时被要求"根据当前帧生成动作"和"根据当前帧+动作预测未来帧",两个任务共享视频 DiT 权重。但测试时只执行第一个任务,未来帧那条分支直接丢掉。视频任务在训练中逼迫视频 DiT 学会物理动力学,这种能力被迁移到动作生成的表征质量上。
2.4 受控对照变体
为回答核心问题,设计了 4 个共享骨架的变体:
| 变体 | 训练时视频目标 | 测试时视频生成 | 推理范式 |
|---|---|---|---|
| Fast-WAM(本文) | ✓ | ✗ | 单次前向传播 |
| Fast-WAM-Joint | ✓ | ✓ | 视频+动作联合去噪 |
| Fast-WAM-IDM | ✓ | ✓ | 先生成视频,再预测动作 |
| Fast-WAM w.o. co-train | ✗ | ✗ | 单次前向传播 |
- Fast-WAM-Joint 对应联合建模范式(Motus、UWM)
- Fast-WAM-IDM 对应因果 WAM 范式(LingBot-VA),推理时先去噪未来视频再条件化动作;参考 LingBot-VA,以概率
对真实视频 token 加噪增强 - Fast-WAM w.o. co-train 是纯控制组,剥离视频协同目标,架构与推理不变
三、实验结果
3.1 实现细节
- 骨架:Wan2.2-5B,含视频 DiT、T5 文本编码器、视频 VAE
- 动作 expert:与视频 branch 同架构,隐维 1024,参数 ~1B;总模型 6B
- 动作视域
,视频帧 4× 时序下采样后每块 9 帧 - 去噪步数:10 步,CFG scale 1.0
- 优化器:AdamW,lr
,weight decay 0.01,cosine 退火,梯度裁剪 1.0 - 延迟测量设备:单卡 NVIDIA RTX 5090D V2 32GB
3.2 RoboTwin 主实验
RoboTwin 2.0 包含超过 50 个双臂协作任务;训练数据 2,500(干净)+ 25,000(场景随机化),各任务 100 试验报成功率。
| 方法 | 具身预训练 | Clean | Rand. | 平均 |
|---|---|---|---|---|
| π₀ | ✓ | 65.92 | 58.40 | 62.2 |
| π₀.₅ | ✓ | 82.74 | 76.76 | 79.8 |
| Motus | ✓ | 88.66 | 87.02 | 87.8 |
| Motus from WAN2.2 | ✗ | 77.56 | 77.00 | 77.3 |
| LingBot-VA | ✓ | 92.90 | 91.50 | 92.2 |
| LingBot-VA from WAN2.2 | ✗ | 80.60 | — | 80.6 |
| Fast-WAM(本文) | ✗ | 91.88 | 91.78 | 91.8 |
受控变体对比:
| 变体 | 具身预训练 | Clean | Rand. | 平均 |
|---|---|---|---|---|
| Fast-WAM | ✗ | 91.88 | 91.78 | 91.8 |
| Fast-WAM-Joint | ✗ | 90.84 | 90.32 | 90.6 |
| Fast-WAM-IDM | ✗ | 91.16 | 91.34 | 91.3 |
| Fast-WAM w.o. video co-train | ✗ | 82.76 | 84.80 | 83.8 |
三个带视频协同目标的变体互相持平(91.8/90.6/91.3),而去掉视频协同目标后骤降至 83.8(-8%),远大于有无未来想象之间的差距(<1.2%)。
3.3 LIBERO 主实验
LIBERO 四个子任务,各 500 条演示,训练 20k 步,2000 试验。
| 方法 | 具身预训练 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|---|
| OpenVLA | ✓ | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| π₀ | ✓ | 96.8 | 98.8 | 95.8 | 85.2 | 94.1 |
| π₀.₅ | ✓ | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| LingBot-VA | ✓ | 98.5 | 99.6 | 97.2 | 98.5 | 98.5 |
| Motus | ✓ | 96.8 | 99.8 | 96.6 | 97.6 | 97.7 |
| Fast-WAM(本文) | ✗ | 98.2 | 100.0 | 97.0 | 95.2 | 97.6 |
| Fast-WAM-Joint | ✗ | 99.6 | 99.4 | 98.2 | 96.8 | 98.5 |
| Fast-WAM-IDM | ✗ | 98.8 | 97.8 | 97.8 | 97.6 | 98.0 |
| Fast-WAM w.o. video co-train | ✗ | 89.2 | 99.2 | 95.4 | 90.0 | 93.5 |
模式一致:去掉视频协同目标下降 4.1%(97.6→93.5),而有无未来想象差距 <1%。
3.4 真实世界折叠毛巾任务
60 小时遥操作演示,Galaxea R1 Lite 平台,同时报告成功率和平均完成时间(完成时间衡量策略效率,越短越好)。
| 方法 | 具身预训练 | 成功率 | 完成时间 (s) | 延迟 (ms) |
|---|---|---|---|---|
| π₀.₅ | ✓ | 最高 | 最短 | 180 |
| Fast-WAM | ✗ | 高 | 较短 | 190 |
| Fast-WAM-Joint | ✗ | 高 | 较长 | 580 |
| Fast-WAM-IDM | ✗ | 最高(无预训练) | — | 810 |
| Fast-WAM w.o. video co-train | ✗ | 仅 10% | 最长 | 190 |
Fast-WAM 以 190 ms 实现实时推理,比 Fast-WAM-Joint 快 3×、比 Fast-WAM-IDM 快 4.3×。去掉视频协同训练的变体在真实世界任务上成功率骤降至 10%,差距比仿真更大,进一步验证了视频协同目标的关键性。
四、局限性
- 单动作块范式:实验聚焦于单块动作生成,省略了外层自回归循环(outer AR rollout)——对长时域任务是否仍然充分有待验证
- 预训练规模未探索:训练数据均为任务特定演示,无大规模具身预训练;论文将 "更大规模预训练数据与模型缩放" 列为未来方向,这正是 Fast-WAM 与 LingBot-VA 之间仍有差距的原因
- 视频质量的下限:Fast-WAM 不生成视频,但依赖 Wan2.2-5B 的预训练视觉表征质量——骨架质量对最终效果至关重要,跨不同视频 DiT 的泛化性未验证
五、个人思考
5.1 与 WorldVLA 的关键对比
两者都试图回答 "世界模型如何帮助动作策略",但结论和机制截然不同:
| 维度 | WorldVLA(Jun Cen et al., 2025) | Fast-WAM(本文) |
|---|---|---|
| 基础骨架 | Chameleon(自回归 LLM) | Wan2.2-5B(视频 DiT) |
| 世界模型作用 | 训练辅助任务 + 测试时可生成未来帧 | 纯训练辅助目标,测试时完全跳过 |
| 两者是否相互看到 | 共享权重,联合解码 | 动作分支不看未来视频(mask 隔断) |
| 动作表示 | 离散 token(256 bin) | 连续向量(流匹配) |
| 核心结论 | 世界模型+动作模型双向增强 | 训练时视频目标 >> 测试时视频生成 |
Fast-WAM 最重要的贡献是受控实验设计:通过四个共享骨架的变体,精确量化了两个因素各自的贡献,得到了比 WorldVLA 更清晰的因果结论。
5.2 "训练时 > 测试时" 的直觉
这一结论有深刻的直觉:视频预测目标迫使模型建立 物体-动作-结果 的因果关联,这种因果表征被编码进 video DiT 的权重,在推理时以潜在表征
这与人类技能习得的模式类似:老司机开车时不需要在脑中 "想象" 每一步的画面,训练形成的直觉已经包含了足够的预见性。
5.3 与 GigaBrain、RISE 等世界模型 RL 工作的关系
GigaBrain、RISE、SC-VLA 等工作也用世界模型预测未来,但它们用的是显式 rollout + RL 奖励:世界模型生成未来状态 → 评估奖励 → 更新策略。Fast-WAM 的对照实验 (Fast-WAM-IDM) 接近这条路线(先生成视频再决策),但实验显示其提升边际小于 1%。这说明:rollout 的价值可能主要在于提供更多训练信号(想象回合),而非在推理时直接条件化。
5.4 MoT 架构中 KV Cache 的作用
Fast-WAM 在推理时对第一帧潜在 token 做一次前向传播后缓存 KV,然后对动作进行去噪(10 步)。这意味着视觉编码只做 1 次,动作去噪的 10 步可以复用同一 KV Cache,实质上是将 "视觉理解" 和 "动作生成" 的计算解耦,这是 190 ms 低延迟的关键来源之一。Fast-WAM-IDM 的 810 ms 高延迟正是因为需要先完整去噪未来视频(多步)才能开始动作去噪。
5.5 方法论启示:受控消融设计
Fast-WAM 最值得借鉴的不是模型本身,而是用共享骨架的受控变体回答 "哪个因素更重要" 这种研究范式。类似的问题在 VLA 领域很普遍(如 VLA 中的视觉预训练 vs. 指令跟随数据、世界模型中的规模 vs. 架构),但往往因为变体之间骨架不同而难以得出干净结论。
参考
- Wan2.2-5B(Team Wan et al., 2025):视频生成 DiT 骨架,Fast-WAM 的核心预训练模型
- LingBot-VA(Li et al., 2026,arXiv 2601.21998):causal WAM 代表,Fast-WAM-IDM 的设计参考
- Motus(Bi et al., 2025,arXiv 2512.13030):联合建模 WAM,Fast-WAM-Joint 的设计参考
- UVA(Li et al., 2025,arXiv 2503.00200):测试时跳过视频解码的统一视频动作模型,与 Fast-WAM 思路最接近
- VPP(Hu et al., 2024,arXiv 2412.14803):从视频扩散模型中提取预测视觉表征用于策略
- π₀.₅(Physical Intelligence, 2025,arXiv 2504.16054):具身预训练 VLA 基线,真实世界实验中的最强对比
- LIBERO(Liu et al., 2023,arXiv 2306.03310):终身机器人学习基准,4 个子任务集
- RoboTwin 2.0(Chen et al., 2025,arXiv 2506.18088):双臂操作基准,50+ 任务,强场景随机化
- WorldVLA(Cen et al., 2025):自回归统一动作+世界模型,相同研究问题下的不同路线