MoH：动作分块的混合时域策略

论文：Mixture of Horizons in Action Chunking
作者：Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
机构：中国人民大学、北卡罗来纳大学、香港中文大学
发布时间：2025年11月
🔗 arXiv | 代码
分类标签：VLA Action Chunking 多尺度时域融合 动态推理 Flow Matching LIBERO

一句话总结

揭示 VLA 动作分块中"固定 horizon 长度"导致的 长期前瞻 vs 短期精度 根本性 trade-off，提出 Mixture of Horizons (MoH)：将多个不同 horizon 的动作块在共享 Action Transformer 中并行处理，用轻量线性门（仅 2k 参数）逐步融合，并设计跨 horizon 共识的动态推理机制实现自适应截断。Plug-and-play 适用于 flow-matching 和 one-step 策略， $π_{0.5}$ + MoH 在 LIBERO mixed-task 上仅 30k 迭代达到 99% 平均成功率（SOTA），动态推理在 2.5× 吞吐量下仍超越基线。

一、问题与动机

1.1 Horizon 选择的固有 Trade-off

VLA 模型普遍采用 动作分块（action chunking）：每步预测 $H$ 步未来动作序列，以减少策略调用次数、暴露时序结构。但 chunk 长度（即 horizon $H$ ）的选择对性能有关键影响：

长 horizon（如 $H = 30$ ）：提供更强的全局前瞻能力，在长时域任务（如 LIBERO-Long）上表现好，但短时域任务精度下降
短 horizon（如 $H = 10$ ）：提供精确的局部控制，在短时域任务上表现好，但缺乏远期规划能力

以 $π_{0}$ 为基线在 LIBERO 上的实验清晰展示了这一 trade-off：Spatial/Object/Goal/Long 四个任务套件随 horizon 变化呈现此消彼长的趋势。固定单一 horizon 是一个固有瓶颈。

1.2 现有方法的不足

现有 VLA（ $π_{0}$ 、 $π_{0.5}$ 、OpenVLA、CogACT 等）均采用 固定 horizon，通过启发式选择
CogACT 提出相似度加权融合重叠 chunk，但仍是单 horizon 训练
没有现成方法能在 训练阶段 同时利用多尺度时域信息

二、核心方法

2.1 预备知识

动作分块 VLA 的通用框架：在决策步 $t$ ，策略观测多视角输入 $V_{t}$ 、历史 $h_{< t}$ 、语言指令 $T$ 、本体状态 $s_{t}$ ，输出动作块：

A_{t} = (a_{t, 1}, \dots, a_{t, H}) \in R^{H \times d_{a}}

其中 $a_{t, k} = a_{t + k - 1}$ 是 chunk 内第 $k$ 步的动作。

Flow Matching 策略：学习速度场将高斯噪声 $ϵ \sim N (0, I)$ 传输到目标动作块。线性插值参考路径 $A_{t}^{(τ)} = (1 - τ) ϵ + τ A_{t}$ ，速度 $u (ϵ, A_{t}) = A_{t} - ϵ$ ，训练目标：

L_{fm} (θ) = E_{ϵ, τ} {‖ v_{θ} (A_{t}^{(τ)}, τ, V_{t}, h_{< t}, T, s_{t}) - u (ϵ, A_{t}) ‖}_{2}^{2}

One-step 策略：直接单次前向映射到动作块 ${\hat{A}}_{t} = g_{θ} (V_{t}, h_{< t}, T, s_{t})$ ，可用分类损失或回归损失训练。

两类策略都基于 全注意力 Action Transformer（非因果 attention，所有 action token 互相关注）。

2.2 Mixture of Horizons

动作块重排列

固定最大 horizon $H$ ，设定候选 horizon 集合 $H = {h_{1}, \dots, h_{N}}$ ，其中 $h_{1} < \dots < h_{N} = H$ 。对于 ground-truth 动作块 $A_{t} = (a_{t, 1}, \dots, a_{t, H})$ ，为每个 $h \in H$ 构造截断块：

A_{t}^{(h)} = (a_{t, 1}, \dots, a_{t, h}) \in R^{h \times d_{a}}

关键设计：所有 horizon 共享同一观测上下文（VLM 只计算一次），每个 $A_{t}^{(h)}$ 补零到长度 $H$ 以便 batch 处理，用 horizon 专属注意力掩码 屏蔽 $k > h$ 的位置。这样共享 Action Transformer 可以在 一次前向传播 中并行处理所有 horizon。

门控融合

共享 Action Transformer 为每个 horizon $h$ 产生隐状态 $Z_{t}^{(h)} \in R^{h \times d}$ ，经 Action Head 得到 horizon 专属预测 ${\hat{A}}_{t}^{(h)} = ({\hat{a}}_{t, 1}^{(h)}, \dots, {\hat{a}}_{t, h}^{(h)})$ 。

一个 线性门控头（仅约 2k 参数）在共享 Action Transformer 之上产生每步、每 horizon 的 logits $g_{t, k, h}$ 。对步 $k$ ，只有 $k \leq h$ 的 horizon 有效，masked softmax 归一化：

α_{t, k, h} = \frac{\exp (g_{t, k, h})}{\sum_{h^{'} \in H : k \leq h^{'}} \exp (g_{t, k, h^{'}})}, h \in H, k \leq h

最终融合预测：

{\hat{a}}_{t, k} = \sum_{h \in H : k \leq h} α_{t, k, h} \cdot {\hat{a}}_{t, k}^{(h)}

直觉：在动作块的早期步（如 $k = 1$ ），所有 horizon 都参与投票——短 horizon 提供精确近距离控制，长 horizon 提供全局方向；在后期步（如 $k = 25$ ），只有长 horizon 仍然有效，自然退化为长期规划。门控网络学习 在每一步自适应地分配不同 horizon 的权重。

平衡损失

为防止门控坍缩到偏好特定 horizon（尤其是长 horizon 因参与更多步而获得统计和梯度偏置），引入类似 MoE 负载均衡的正则项。

按 horizon 边界 ${0, h_{1}, \dots, h_{N}}$ 将时间步划分为若干区间。对每个区间 $(h_{i - 1}, h_{i}]$ ，活跃 horizon 为 $H_{i} = {h \in H : h > h_{i - 1}}$ 。平衡损失为这些区间上平均使用率的变异系数平方均值：

L_{bal} = \frac{1}{| I |} \sum_{i \in I} {CV}^{2} ({{\bar{α}}_{h}^{(i)}}_{h \in H_{i}}), {CV}^{2} (p) = \frac{Var (p)}{(Mean (p))^{2} + ε}

训练目标

MoH 对底层策略损失不可知。设 $L_{mix}$ 为融合预测上的损失， $L_{ind} = \sum_{h \in H} L^{(h)}$ 为各 horizon 独立预测的损失之和，最终目标：

L = L_{mix} + λ_{ind} L_{ind} + λ_{bal} L_{bal}

其中 $λ_{ind} = 1$ ， $λ_{bal} = 10^{- 3}$ 。

2.3 动态推理：跨 Horizon 共识

MoH 天然支持一种 自适应截断 的动态推理机制：

对每步 $k$ ，计算活跃 horizon 集合 $H_{k} = {h \in H : k \leq h}$
计算加权分歧度 ${\bar{d}}_{k} = \sum_{h \in H_{k}} α_{k} \cdot ∥ \hat{a} - {\hat{a}}_{k} ∥$
用前 $n$ 步的平均分歧度乘以缩放比 $r$ 作为阈值 $thres$
从 $k = n + 1$ 开始，若活跃 horizon 数 $| H_{k} | < m$ 或 ${\bar{d}}_{k} > thres$ ，则截断
返回前 $K_{exec}$ 步作为可执行动作

直觉：当各 horizon 对某步动作达成共识（分歧度低）时执行，分歧出现时提前重新规划。在 决策点和精细操作处 倾向短 chunk（如仅 5 步），在 稳定运动阶段 执行更长 chunk（如 15 步）。

三、实验结果

3.1 LIBERO（Mixed-Task Training）

方法	参数量	训练迭代	Spatial	Object	Goal	Long	平均
OpenVLA	7B	150k	84.7	88.4	79.2	53.7	76.5
CoT-VLA	7B	100k	87.5	91.6	87.6	69.0	83.9
UniVLA	9B	8k	96.5	96.8	95.6	92.0	95.2
$π_{reg}$	3B	30k	97.8	98.2	94.6	90.2	95.2
$π_{reg}$ + MoH	3B	30k	99.0	98.8	96.4	91.4	96.4
Spatial Forcing	7B	150k	99.4	99.6	98.8	96.0	98.5
$π_{0}$	3B	30k	97.4	98.2	95.4	84.2	93.8
$π_{0}$ + MoH	3B	30k	97.6	98.8	96.4	87.4	95.1
$π_{0.5}$	3B	30k	98.8	99.0	97.6	95.4	97.7
$π_{0.5}$ + MoH	3B	30k	98.8	100	98.8	98.4	99.0

$π_{0.5}$ + MoH 达到 99% 平均成功率，LIBERO SOTA
提升在 Long 任务套件 上最为显著（ $π_{0}$ : 84.2→87.4, $π_{0.5}$ : 95.4→98.4），正是因为 MoH 缓解了短 horizon 在长时域任务上的不足
MoH 对三种策略类型（flow-matching $π_{0}$ / $π_{0.5}$ 、regression $π_{reg}$ ）均有效

3.2 RoboTwin 2.0（双臂操作）

在 7 个代表性任务上， $π_{0}$ + MoH 在 easy 和 hard 两种设置下均取得最高平均成功率，验证了 MoH 在域随机化（杂物、纹理、光照）下的泛化能力。

3.3 消融实验

Horizon 密度（ $π_{0.5}$ ， $H_{max} = 30$ ）：

配置	$H$	Long	平均
基线	${30}$	95.4	97.7
MoH $d$ =10	${10, 20, 30}$	96.8	98.3
MoH $d$ =5	${5, 10, \dots, 30}$	96.2	98.3
MoH $d$ =3	${3, 6, \dots, 30}$	98.4	99.0
MoH $d$ =2	${2, 4, \dots, 30}$	97.0	98.3
MoH $d$ =1	${1, 2, \dots, 30}$	96.2	98.3

仅 3 个 horizon（ $d = 10$ ）即可将平均成功率从 97.7% 提升到 98.3%。 $d = 3$ （10 个 horizon）是最优配置。过密反而略有下降——适度密度足以捕获互补时序结构。

组件消融：

变体	Spatial	Object	Goal	Long	平均
基线 $π_{0.5}$	98.8	99.0	97.6	95.4	97.7
+ Loss reweighting（无 MoH）	99.2	99.6	99.2	94.4	98.1
+ MoH 均匀平均融合	98.8	99.2	98.6	96.8	98.4
+ MoH 无 $L_{bal}$	98.2	100	99.0	96.8	98.5
+ MoH 完整版	98.8	100	98.8	98.4	99.0

关键发现：

Loss reweighting 不能替代 MoH：虽然短时域任务提升，但 Long 进一步退化（94.4%），加剧 trade-off
即使简单均匀平均也有效（98.4%），证明多 horizon 协作本身有益
门控融合 + 平衡损失 进一步提升到 99.0%，尤其在 Long 上从 96.8% 到 98.4%
无 $L_{bal}$ 时门控偏向长 horizon（因长 horizon 参与更多步），引入 $L_{bal}$ 有效抑制此偏置

3.4 开销分析

Horizon 配置	训练时间（s/iter）	推理时间（s/chunk）
${30}$ （ $π_{0}$ 基线）	0.68	0.224
${3, 6, \dots, 30}$ （MoH）	0.77	0.229

训练增加约 13%，推理增加约 2%——由于 VLM 上下文只计算一次且 Action Transformer 本身很轻量，MoH 的额外开销可忽略不计。

3.5 动态推理

$π_{0.5}$ + MoH 在 LIBERO-Long 上：

默认执行 5 步：98.4%
动态推理 $r = 1$ （平均 6.5 步）：97.5%
动态推理 $r = 1.1$ （平均 8.5 步）：96.4%
动态推理 $r = 1.4$ （平均 12.7 步，2.5× 吞吐量）：96.2%

在 2.5× 吞吐量下，MoH 动态推理仍超越基线 $π_{0.5}$ （95.4%）。且在所有吞吐量级别下，动态推理均优于同等步数的固定长度前缀策略。

3.6 真实世界实验

单臂 7-DoF 平台，每任务 30 条演示，10k 迭代训练：

任务	$π_{0}$	$π_{0}$ +MoH	$π_{0.5}$	$π_{0.5}$ +MoH
T1: 面包放碗	30%	50%	60%	90%
T2: 倒牛奶	10%	50%	0%	20%
T3: 笔放抽屉并关闭	30%	50%	50%	70%

MoH 在所有任务和两种基线上均有提升。有趣的是 $π_{0.5}$ 在倒牛奶任务上比 $π_{0}$ 差——原因是 $π_{0.5}$ 在倒和放回两个动作之间犹豫（两者都在训练集中出现，且无显式历史输入），MoH 帮助缓解了这种过拟合。

四、局限性与未来方向

仅适用于全注意力 Action Transformer：MoH 依赖全注意力机制实现跨 horizon 并行处理，不直接适用于因果 autoregressive action head
Horizon 集合需要预设：虽然实验表明 $d = 3$ 是好的默认值，但最优配置可能因任务和构型而异，未来可探索自适应 horizon 选择
真实世界验证规模有限：仅 3 个任务 × 30 条演示 × 10 rollout，规模较小
动态推理的阈值超参数： $r$ 、 $n$ 、 $m$ 需要调整，虽然实验表明对这些参数不太敏感

五、个人思考

5.1 与 π 系列的深度互补

MoH 本质上是一种 训练策略（非架构改动），对 $π_{0}$ 、 $π_{0.5}$ 、 $π_{reg}$ 三种不同策略类型均有效。这意味着它可以与 $π$ 系列的后续演进（如 $π_{0.6}^{*}$ 的 RECAP 离线 RL）正交叠加。特别是 $π_{0.5}$ + MoH 已经达到 LIBERO 99%，这几乎是 SFT 范式的上限——剩余 1% 主要是环境 bug 和指令理解问题，而非动作预测精度。

5.2 动态推理与 Test-time Scaling 的联系

MoH 的动态推理在概念上类似于 TACO 的 test-time scaling 思想：都是在推理时根据不确定性调整计算量。但 MoH 更优雅——它不需要额外模型（TACO 需要 CFN 伪计数器），跨 horizon 共识是训练过程的 天然副产物。这提示了一个有趣的方向：训练时引入的冗余结构可以在推理时转化为自适应决策的信号源。

5.3 全注意力的隐含意义

论文反复强调 MoH 适用于 全注意力 action module。这实际上暗示了 VLA 社区的一个重要共识：非因果全注意力在 chunk 预测中显著优于自回归解码（ $π_{0}$ 、OpenVLA-OFT 等已验证）。MoH 进一步强化了这一设计选择的优势——正是全注意力允许不同 horizon 的 action tokens 在同一注意力场中交互，为门控融合提供了信息基础。

5.4 与 TGM-VLA 的对比

TGM-VLA 和 MoH 都是"数据/训练策略层面的改进"，但方向互补：

TGM-VLA 解决的是 3D VLA 关键帧范式下的 数据质量 问题（冗余采样、深色物体、指令欠利用）
MoH 解决的是 时域表示 问题（单一 horizon 的 trade-off）

两者均不修改 VLM 骨干。有趣的是，TGM-VLA 的 heatmap 多峰预测和 MoH 的多 horizon 融合在精神上有相似之处——都是在单一模型中引入"多模态"预测以提升鲁棒性。

5.5 2k 参数门控的启示

MoH 的门控头仅有约 2k 参数，却能有效学习时间步级别的 horizon 权重分配。这是 Occam's Razor 原则的极好实践——在 VLA 动作空间这种相对低维的场景中，简单线性门控已经足够，不需要复杂的注意力路由或 MoE 式架构。这与 DAM-VLA 的 class/register token 路由形成有趣对比：后者在高维动作空间解耦上需要更复杂的机制。

参考

$π_{0}$ （Black et al., 2024）：Flow Matching VLA 基础模型——MoH 的主要基线
$π_{0.5}$ （Shi et al., 2025）：分层推理 VLA—— $π_{0.5}$ + MoH 达到 LIBERO SOTA
ACT（Zhao et al., 2023）：动作分块的开创性工作——MoH 解决其固定 horizon 的局限
CogACT（Li et al., 2024）：相似度加权 chunk 融合——与 MoH 关注类似问题但方法不同
SmolVLA（Shukor et al., 2025）：系统研究 horizon 敏感性——MoH 引用其发现作为动机
TGM-VLA（Pu et al., 2026）：数据层面的 VLA 优化——与 MoH 在训练策略层面互补

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

MoH：动作分块的混合时域策略 ​

一句话总结 ​

一、问题与动机 ​

1.1 Horizon 选择的固有 Trade-off ​

1.2 现有方法的不足 ​

二、核心方法 ​

2.1 预备知识 ​

2.2 Mixture of Horizons ​

动作块重排列 ​

门控融合 ​

平衡损失 ​

训练目标 ​

2.3 动态推理：跨 Horizon 共识 ​

三、实验结果 ​

3.1 LIBERO（Mixed-Task Training） ​

3.2 RoboTwin 2.0（双臂操作） ​

3.3 消融实验 ​

3.4 开销分析 ​

3.5 动态推理 ​

3.6 真实世界实验 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 与 π 系列的深度互补 ​

5.2 动态推理与 Test-time Scaling 的联系 ​

5.3 全注意力的隐含意义 ​

5.4 与 TGM-VLA 的对比 ​

5.5 2k 参数门控的启示 ​

参考 ​