MoH:动作分块的混合时域策略
论文:Mixture of Horizons in Action Chunking
作者:Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
机构:中国人民大学、北卡罗来纳大学、香港中文大学
发布时间:2025年11月
分类标签:
VLAAction Chunking多尺度时域融合动态推理Flow MatchingLIBERO
一句话总结
揭示 VLA 动作分块中"固定 horizon 长度"导致的 长期前瞻 vs 短期精度 根本性 trade-off,提出 Mixture of Horizons (MoH):将多个不同 horizon 的动作块在共享 Action Transformer 中并行处理,用轻量线性门(仅 2k 参数)逐步融合,并设计跨 horizon 共识的动态推理机制实现自适应截断。Plug-and-play 适用于 flow-matching 和 one-step 策略,
一、问题与动机
1.1 Horizon 选择的固有 Trade-off
VLA 模型普遍采用 动作分块(action chunking):每步预测
- 长 horizon(如
):提供更强的全局前瞻能力,在长时域任务(如 LIBERO-Long)上表现好,但短时域任务精度下降 - 短 horizon(如
):提供精确的局部控制,在短时域任务上表现好,但缺乏远期规划能力
以
1.2 现有方法的不足
- 现有 VLA(
、 、OpenVLA、CogACT 等)均采用 固定 horizon,通过启发式选择 - CogACT 提出相似度加权融合重叠 chunk,但仍是单 horizon 训练
- 没有现成方法能在 训练阶段 同时利用多尺度时域信息
二、核心方法
2.1 预备知识
动作分块 VLA 的通用框架:在决策步
其中
Flow Matching 策略:学习速度场将高斯噪声
One-step 策略:直接单次前向映射到动作块
两类策略都基于 全注意力 Action Transformer(非因果 attention,所有 action token 互相关注)。
2.2 Mixture of Horizons
动作块重排列
固定最大 horizon
关键设计:所有 horizon 共享同一观测上下文(VLM 只计算一次),每个
门控融合
共享 Action Transformer 为每个 horizon
一个 线性门控头(仅约 2k 参数)在共享 Action Transformer 之上产生每步、每 horizon 的 logits
最终融合预测:
直觉:在动作块的早期步(如
平衡损失
为防止门控坍缩到偏好特定 horizon(尤其是长 horizon 因参与更多步而获得统计和梯度偏置),引入类似 MoE 负载均衡的正则项。
按 horizon 边界
训练目标
MoH 对底层策略损失不可知。设
其中
2.3 动态推理:跨 Horizon 共识
MoH 天然支持一种 自适应截断 的动态推理机制:
- 对每步
,计算活跃 horizon 集合 - 计算加权分歧度
- 用前
步的平均分歧度乘以缩放比 作为阈值 - 从
开始,若活跃 horizon 数 或 ,则截断 - 返回前
步作为可执行动作
直觉:当各 horizon 对某步动作达成共识(分歧度低)时执行,分歧出现时提前重新规划。在 决策点和精细操作处 倾向短 chunk(如仅 5 步),在 稳定运动阶段 执行更长 chunk(如 15 步)。
三、实验结果
3.1 LIBERO(Mixed-Task Training)
| 方法 | 参数量 | 训练迭代 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|---|---|
| OpenVLA | 7B | 150k | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| CoT-VLA | 7B | 100k | 87.5 | 91.6 | 87.6 | 69.0 | 83.9 |
| UniVLA | 9B | 8k | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
| 3B | 30k | 97.8 | 98.2 | 94.6 | 90.2 | 95.2 | |
| 3B | 30k | 99.0 | 98.8 | 96.4 | 91.4 | 96.4 | |
| Spatial Forcing | 7B | 150k | 99.4 | 99.6 | 98.8 | 96.0 | 98.5 |
| 3B | 30k | 97.4 | 98.2 | 95.4 | 84.2 | 93.8 | |
| 3B | 30k | 97.6 | 98.8 | 96.4 | 87.4 | 95.1 | |
| 3B | 30k | 98.8 | 99.0 | 97.6 | 95.4 | 97.7 | |
| 3B | 30k | 98.8 | 100 | 98.8 | 98.4 | 99.0 |
+ MoH 达到 99% 平均成功率,LIBERO SOTA - 提升在 Long 任务套件 上最为显著(
: 84.2→87.4, : 95.4→98.4),正是因为 MoH 缓解了短 horizon 在长时域任务上的不足 - MoH 对三种策略类型(flow-matching
/ 、regression )均有效
3.2 RoboTwin 2.0(双臂操作)
在 7 个代表性任务上,
3.3 消融实验
Horizon 密度(
| 配置 | Long | 平均 | |
|---|---|---|---|
| 基线 | 95.4 | 97.7 | |
| MoH | 96.8 | 98.3 | |
| MoH | 96.2 | 98.3 | |
| MoH | 98.4 | 99.0 | |
| MoH | 97.0 | 98.3 | |
| MoH | 96.2 | 98.3 |
仅 3 个 horizon(
组件消融:
| 变体 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| 基线 | 98.8 | 99.0 | 97.6 | 95.4 | 97.7 |
| + Loss reweighting(无 MoH) | 99.2 | 99.6 | 99.2 | 94.4 | 98.1 |
| + MoH 均匀平均融合 | 98.8 | 99.2 | 98.6 | 96.8 | 98.4 |
| + MoH 无 | 98.2 | 100 | 99.0 | 96.8 | 98.5 |
| + MoH 完整版 | 98.8 | 100 | 98.8 | 98.4 | 99.0 |
关键发现:
- Loss reweighting 不能替代 MoH:虽然短时域任务提升,但 Long 进一步退化(94.4%),加剧 trade-off
- 即使简单均匀平均也有效(98.4%),证明多 horizon 协作本身有益
- 门控融合 + 平衡损失 进一步提升到 99.0%,尤其在 Long 上从 96.8% 到 98.4%
- 无
时门控偏向长 horizon(因长 horizon 参与更多步),引入 有效抑制此偏置
3.4 开销分析
| Horizon 配置 | 训练时间(s/iter) | 推理时间(s/chunk) |
|---|---|---|
| 0.68 | 0.224 | |
| 0.77 | 0.229 |
训练增加约 13%,推理增加约 2%——由于 VLM 上下文只计算一次且 Action Transformer 本身很轻量,MoH 的额外开销可忽略不计。
3.5 动态推理
- 默认执行 5 步:98.4%
- 动态推理
(平均 6.5 步):97.5% - 动态推理
(平均 8.5 步):96.4% - 动态推理
(平均 12.7 步,2.5× 吞吐量):96.2%
在 2.5× 吞吐量下,MoH 动态推理仍超越基线
3.6 真实世界实验
单臂 7-DoF 平台,每任务 30 条演示,10k 迭代训练:
| 任务 | ||||
|---|---|---|---|---|
| T1: 面包放碗 | 30% | 50% | 60% | 90% |
| T2: 倒牛奶 | 10% | 50% | 0% | 20% |
| T3: 笔放抽屉并关闭 | 30% | 50% | 50% | 70% |
MoH 在所有任务和两种基线上均有提升。有趣的是
四、局限性与未来方向
- 仅适用于全注意力 Action Transformer:MoH 依赖全注意力机制实现跨 horizon 并行处理,不直接适用于因果 autoregressive action head
- Horizon 集合需要预设:虽然实验表明
是好的默认值,但最优配置可能因任务和构型而异,未来可探索自适应 horizon 选择 - 真实世界验证规模有限:仅 3 个任务 × 30 条演示 × 10 rollout,规模较小
- 动态推理的阈值超参数:
、 、 需要调整,虽然实验表明对这些参数不太敏感
五、个人思考
5.1 与 π 系列的深度互补
MoH 本质上是一种 训练策略(非架构改动),对
5.2 动态推理与 Test-time Scaling 的联系
MoH 的动态推理在概念上类似于 TACO 的 test-time scaling 思想:都是在推理时根据不确定性调整计算量。但 MoH 更优雅——它不需要额外模型(TACO 需要 CFN 伪计数器),跨 horizon 共识是训练过程的 天然副产物。这提示了一个有趣的方向:训练时引入的冗余结构可以在推理时转化为自适应决策的信号源。
5.3 全注意力的隐含意义
论文反复强调 MoH 适用于 全注意力 action module。这实际上暗示了 VLA 社区的一个重要共识:非因果全注意力在 chunk 预测中显著优于自回归解码(
5.4 与 TGM-VLA 的对比
TGM-VLA 和 MoH 都是"数据/训练策略层面的改进",但方向互补:
- TGM-VLA 解决的是 3D VLA 关键帧范式下的 数据质量 问题(冗余采样、深色物体、指令欠利用)
- MoH 解决的是 时域表示 问题(单一 horizon 的 trade-off)
两者均不修改 VLM 骨干。有趣的是,TGM-VLA 的 heatmap 多峰预测和 MoH 的多 horizon 融合在精神上有相似之处——都是在单一模型中引入"多模态"预测以提升鲁棒性。
5.5 2k 参数门控的启示
MoH 的门控头仅有约 2k 参数,却能有效学习时间步级别的 horizon 权重分配。这是 Occam's Razor 原则的极好实践——在 VLA 动作空间这种相对低维的场景中,简单线性门控已经足够,不需要复杂的注意力路由或 MoE 式架构。这与 DAM-VLA 的 class/register token 路由形成有趣对比:后者在高维动作空间解耦上需要更复杂的机制。
参考
(Black et al., 2024):Flow Matching VLA 基础模型——MoH 的主要基线 (Shi et al., 2025):分层推理 VLA—— + MoH 达到 LIBERO SOTA - ACT(Zhao et al., 2023):动作分块的开创性工作——MoH 解决其固定 horizon 的局限
- CogACT(Li et al., 2024):相似度加权 chunk 融合——与 MoH 关注类似问题但方法不同
- SmolVLA(Shukor et al., 2025):系统研究 horizon 敏感性——MoH 引用其发现作为动机
- TGM-VLA(Pu et al., 2026):数据层面的 VLA 优化——与 MoH 在训练策略层面互补