Skip to content

MoH:动作分块的混合时域策略

论文:Mixture of Horizons in Action Chunking

作者:Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding

机构:中国人民大学、北卡罗来纳大学、香港中文大学

发布时间:2025年11月

🔗 arXiv | 代码

分类标签:VLA Action Chunking 多尺度时域融合 动态推理 Flow Matching LIBERO


一句话总结

揭示 VLA 动作分块中"固定 horizon 长度"导致的 长期前瞻 vs 短期精度 根本性 trade-off,提出 Mixture of Horizons (MoH):将多个不同 horizon 的动作块在共享 Action Transformer 中并行处理,用轻量线性门(仅 2k 参数)逐步融合,并设计跨 horizon 共识的动态推理机制实现自适应截断。Plug-and-play 适用于 flow-matching 和 one-step 策略,π0.5 + MoH 在 LIBERO mixed-task 上仅 30k 迭代达到 99% 平均成功率(SOTA),动态推理在 2.5× 吞吐量下仍超越基线。


一、问题与动机

1.1 Horizon 选择的固有 Trade-off

VLA 模型普遍采用 动作分块(action chunking):每步预测 H 步未来动作序列,以减少策略调用次数、暴露时序结构。但 chunk 长度(即 horizon H)的选择对性能有关键影响:

  • 长 horizon(如 H=30):提供更强的全局前瞻能力,在长时域任务(如 LIBERO-Long)上表现好,但短时域任务精度下降
  • 短 horizon(如 H=10):提供精确的局部控制,在短时域任务上表现好,但缺乏远期规划能力

π0 为基线在 LIBERO 上的实验清晰展示了这一 trade-off:Spatial/Object/Goal/Long 四个任务套件随 horizon 变化呈现此消彼长的趋势。固定单一 horizon 是一个固有瓶颈

1.2 现有方法的不足

  • 现有 VLA(π0π0.5、OpenVLA、CogACT 等)均采用 固定 horizon,通过启发式选择
  • CogACT 提出相似度加权融合重叠 chunk,但仍是单 horizon 训练
  • 没有现成方法能在 训练阶段 同时利用多尺度时域信息

二、核心方法

2.1 预备知识

动作分块 VLA 的通用框架:在决策步 t,策略观测多视角输入 Vt、历史 h<t、语言指令 T、本体状态 st,输出动作块:

At=(at,1,,at,H)RH×da

其中 at,k=at+k1 是 chunk 内第 k 步的动作。

Flow Matching 策略:学习速度场将高斯噪声 ϵN(0,I) 传输到目标动作块。线性插值参考路径 At(τ)=(1τ)ϵ+τAt,速度 u(ϵ,At)=Atϵ,训练目标:

Lfm(θ)=Eϵ,τvθ(At(τ),τ,Vt,h<t,T,st)u(ϵ,At)22

One-step 策略:直接单次前向映射到动作块 A^t=gθ(Vt,h<t,T,st),可用分类损失或回归损失训练。

两类策略都基于 全注意力 Action Transformer(非因果 attention,所有 action token 互相关注)。

2.2 Mixture of Horizons

动作块重排列

固定最大 horizon H,设定候选 horizon 集合 H={h1,,hN},其中 h1<<hN=H。对于 ground-truth 动作块 At=(at,1,,at,H),为每个 hH 构造截断块:

At(h)=(at,1,,at,h)Rh×da

关键设计:所有 horizon 共享同一观测上下文(VLM 只计算一次),每个 At(h) 补零到长度 H 以便 batch 处理,用 horizon 专属注意力掩码 屏蔽 k>h 的位置。这样共享 Action Transformer 可以在 一次前向传播 中并行处理所有 horizon。

门控融合

共享 Action Transformer 为每个 horizon h 产生隐状态 Zt(h)Rh×d,经 Action Head 得到 horizon 专属预测 A^t(h)=(a^t,1(h),,a^t,h(h))

一个 线性门控头(仅约 2k 参数)在共享 Action Transformer 之上产生每步、每 horizon 的 logits gt,k,h。对步 k,只有 kh 的 horizon 有效,masked softmax 归一化:

αt,k,h=exp(gt,k,h)hH:khexp(gt,k,h),hH, kh

最终融合预测:

a^t,k=hH:khαt,k,ha^t,k(h)

直觉:在动作块的早期步(如 k=1),所有 horizon 都参与投票——短 horizon 提供精确近距离控制,长 horizon 提供全局方向;在后期步(如 k=25),只有长 horizon 仍然有效,自然退化为长期规划。门控网络学习 在每一步自适应地分配不同 horizon 的权重

平衡损失

为防止门控坍缩到偏好特定 horizon(尤其是长 horizon 因参与更多步而获得统计和梯度偏置),引入类似 MoE 负载均衡的正则项。

按 horizon 边界 {0,h1,,hN} 将时间步划分为若干区间。对每个区间 (hi1,hi],活跃 horizon 为 Hi={hH:h>hi1}。平衡损失为这些区间上平均使用率的变异系数平方均值:

Lbal=1|I|iICV2({α¯h(i)}hHi),CV2(p)=Var(p)(Mean(p))2+ε

训练目标

MoH 对底层策略损失不可知。设 Lmix 为融合预测上的损失,Lind=hHL(h) 为各 horizon 独立预测的损失之和,最终目标:

L=Lmix+λindLind+λbalLbal

其中 λind=1λbal=103

2.3 动态推理:跨 Horizon 共识

MoH 天然支持一种 自适应截断 的动态推理机制:

  1. 对每步 k,计算活跃 horizon 集合 Hk={hH:kh}
  2. 计算加权分歧度 d¯k=hHkαka^a^k
  3. 用前 n 步的平均分歧度乘以缩放比 r 作为阈值 thres
  4. k=n+1 开始,若活跃 horizon 数 |Hk|<md¯k>thres,则截断
  5. 返回前 Kexec 步作为可执行动作

直觉:当各 horizon 对某步动作达成共识(分歧度低)时执行,分歧出现时提前重新规划。在 决策点和精细操作处 倾向短 chunk(如仅 5 步),在 稳定运动阶段 执行更长 chunk(如 15 步)。


三、实验结果

3.1 LIBERO(Mixed-Task Training)

方法参数量训练迭代SpatialObjectGoalLong平均
OpenVLA7B150k84.788.479.253.776.5
CoT-VLA7B100k87.591.687.669.083.9
UniVLA9B8k96.596.895.692.095.2
πreg3B30k97.898.294.690.295.2
πreg + MoH3B30k99.098.896.491.496.4
Spatial Forcing7B150k99.499.698.896.098.5
π03B30k97.498.295.484.293.8
π0 + MoH3B30k97.698.896.487.495.1
π0.53B30k98.899.097.695.497.7
π0.5 + MoH3B30k98.810098.898.499.0
  • π0.5 + MoH 达到 99% 平均成功率,LIBERO SOTA
  • 提升在 Long 任务套件 上最为显著(π0: 84.2→87.4, π0.5: 95.4→98.4),正是因为 MoH 缓解了短 horizon 在长时域任务上的不足
  • MoH 对三种策略类型(flow-matching π0/π0.5、regression πreg)均有效

3.2 RoboTwin 2.0(双臂操作)

在 7 个代表性任务上,π0 + MoH 在 easy 和 hard 两种设置下均取得最高平均成功率,验证了 MoH 在域随机化(杂物、纹理、光照)下的泛化能力。

3.3 消融实验

Horizon 密度π0.5Hmax=30):

配置HLong平均
基线{30}95.497.7
MoH d=10{10,20,30}96.898.3
MoH d=5{5,10,,30}96.298.3
MoH d=3{3,6,,30}98.499.0
MoH d=2{2,4,,30}97.098.3
MoH d=1{1,2,,30}96.298.3

仅 3 个 horizon(d=10)即可将平均成功率从 97.7% 提升到 98.3%。d=3(10 个 horizon)是最优配置。过密反而略有下降——适度密度足以捕获互补时序结构。

组件消融

变体SpatialObjectGoalLong平均
基线 π0.598.899.097.695.497.7
+ Loss reweighting(无 MoH)99.299.699.294.498.1
+ MoH 均匀平均融合98.899.298.696.898.4
+ MoH 无 Lbal98.210099.096.898.5
+ MoH 完整版98.810098.898.499.0

关键发现:

  • Loss reweighting 不能替代 MoH:虽然短时域任务提升,但 Long 进一步退化(94.4%),加剧 trade-off
  • 即使简单均匀平均也有效(98.4%),证明多 horizon 协作本身有益
  • 门控融合 + 平衡损失 进一步提升到 99.0%,尤其在 Long 上从 96.8% 到 98.4%
  • Lbal 时门控偏向长 horizon(因长 horizon 参与更多步),引入 Lbal 有效抑制此偏置

3.4 开销分析

Horizon 配置训练时间(s/iter)推理时间(s/chunk)
{30}π0 基线)0.680.224
{3,6,,30}(MoH)0.770.229

训练增加约 13%,推理增加约 2%——由于 VLM 上下文只计算一次且 Action Transformer 本身很轻量,MoH 的额外开销可忽略不计。

3.5 动态推理

π0.5 + MoH 在 LIBERO-Long 上:

  • 默认执行 5 步:98.4%
  • 动态推理 r=1(平均 6.5 步):97.5%
  • 动态推理 r=1.1(平均 8.5 步):96.4%
  • 动态推理 r=1.4(平均 12.7 步,2.5× 吞吐量):96.2%

在 2.5× 吞吐量下,MoH 动态推理仍超越基线 π0.5(95.4%)。且在所有吞吐量级别下,动态推理均优于同等步数的固定长度前缀策略。

3.6 真实世界实验

单臂 7-DoF 平台,每任务 30 条演示,10k 迭代训练:

任务π0π0+MoHπ0.5π0.5+MoH
T1: 面包放碗30%50%60%90%
T2: 倒牛奶10%50%0%20%
T3: 笔放抽屉并关闭30%50%50%70%

MoH 在所有任务和两种基线上均有提升。有趣的是 π0.5 在倒牛奶任务上比 π0 差——原因是 π0.5 在倒和放回两个动作之间犹豫(两者都在训练集中出现,且无显式历史输入),MoH 帮助缓解了这种过拟合。


四、局限性与未来方向

  1. 仅适用于全注意力 Action Transformer:MoH 依赖全注意力机制实现跨 horizon 并行处理,不直接适用于因果 autoregressive action head
  2. Horizon 集合需要预设:虽然实验表明 d=3 是好的默认值,但最优配置可能因任务和构型而异,未来可探索自适应 horizon 选择
  3. 真实世界验证规模有限:仅 3 个任务 × 30 条演示 × 10 rollout,规模较小
  4. 动态推理的阈值超参数rnm 需要调整,虽然实验表明对这些参数不太敏感

五、个人思考

5.1 与 π 系列的深度互补

MoH 本质上是一种 训练策略(非架构改动),对 π0π0.5πreg 三种不同策略类型均有效。这意味着它可以与 π 系列的后续演进(如 π0.6 的 RECAP 离线 RL)正交叠加。特别是 π0.5 + MoH 已经达到 LIBERO 99%,这几乎是 SFT 范式的上限——剩余 1% 主要是环境 bug 和指令理解问题,而非动作预测精度。

5.2 动态推理与 Test-time Scaling 的联系

MoH 的动态推理在概念上类似于 TACO 的 test-time scaling 思想:都是在推理时根据不确定性调整计算量。但 MoH 更优雅——它不需要额外模型(TACO 需要 CFN 伪计数器),跨 horizon 共识是训练过程的 天然副产物。这提示了一个有趣的方向:训练时引入的冗余结构可以在推理时转化为自适应决策的信号源。

5.3 全注意力的隐含意义

论文反复强调 MoH 适用于 全注意力 action module。这实际上暗示了 VLA 社区的一个重要共识:非因果全注意力在 chunk 预测中显著优于自回归解码(π0、OpenVLA-OFT 等已验证)。MoH 进一步强化了这一设计选择的优势——正是全注意力允许不同 horizon 的 action tokens 在同一注意力场中交互,为门控融合提供了信息基础。

5.4 与 TGM-VLA 的对比

TGM-VLA 和 MoH 都是"数据/训练策略层面的改进",但方向互补:

  • TGM-VLA 解决的是 3D VLA 关键帧范式下的 数据质量 问题(冗余采样、深色物体、指令欠利用)
  • MoH 解决的是 时域表示 问题(单一 horizon 的 trade-off)

两者均不修改 VLM 骨干。有趣的是,TGM-VLA 的 heatmap 多峰预测和 MoH 的多 horizon 融合在精神上有相似之处——都是在单一模型中引入"多模态"预测以提升鲁棒性。

5.5 2k 参数门控的启示

MoH 的门控头仅有约 2k 参数,却能有效学习时间步级别的 horizon 权重分配。这是 Occam's Razor 原则的极好实践——在 VLA 动作空间这种相对低维的场景中,简单线性门控已经足够,不需要复杂的注意力路由或 MoE 式架构。这与 DAM-VLA 的 class/register token 路由形成有趣对比:后者在高维动作空间解耦上需要更复杂的机制。


参考

  • π0(Black et al., 2024):Flow Matching VLA 基础模型——MoH 的主要基线
  • π0.5(Shi et al., 2025):分层推理 VLA——π0.5 + MoH 达到 LIBERO SOTA
  • ACT(Zhao et al., 2023):动作分块的开创性工作——MoH 解决其固定 horizon 的局限
  • CogACT(Li et al., 2024):相似度加权 chunk 融合——与 MoH 关注类似问题但方法不同
  • SmolVLA(Shukor et al., 2025):系统研究 horizon 敏感性——MoH 引用其发现作为动机
  • TGM-VLA(Pu et al., 2026):数据层面的 VLA 优化——与 MoH 在训练策略层面互补