ARM：长程操作任务的优势奖励建模

论文：ARM: Advantage Reward Modeling for Long-Horizon Manipulation
作者：Yiming Mao, Zixi Yu, Weixin Mao†, Yinhao Li, Qirui Hu, Zihan Lan, Minzhao Zhu, Hua Chen*
机构：LimX Dynamics、北京邮电大学、浙江大学
发布时间：2026 年 4 月（arXiv v1，尚未中稿）
链接：arXiv | 项目主页
分类标签：相对优势奖励 Tri-state 标注 MIMO Transformer AW-BC 长程操作

一句话总结

将奖励建模从"难以量化的绝对进度回归"转向"相对优势分类"，通过 Tri-state（Progressing/Regressing/Stagnant）轻量标注 和 MIMO Transformer 架构 训练奖励模型，用 任务完成头 作为锚点把局部相对预测累积重建为全局密集进度曲线，再用 Advantage-Weighted Behavior Cloning 自动过滤次优样本，在长程双臂叠毛巾任务上以 99.4% 成功率超越 SARM（78.5%）和原始 BC（62.1%）。

一、问题与动机

1.1 长程操作中 RL 的奖励瓶颈

VLA 模型已经在通用机器人操作上取得显著进展，但绝大多数依赖模仿学习（IL），而 IL 受限于：(a) 数据采集成本极高；(b) 人类演示中固有的次优性和噪声；(c) 长程任务中收敛困难。RL 提供了一种从次优演示中自我提升的可能性，但 稀疏奖励（如二元成功）难以提供足够的学习信号，密集奖励 则陷入"奖励工程瓶颈"。

1.2 现有进度奖励范式的三大局限

论文将现有的进度奖励方法（SARM、GVL、ReWiND、Robo-Dopamine 等）归纳出三个核心问题：

零样本 VLM 不可靠且昂贵：VLM 缺乏空间几何接地，常产生非单调震荡的奖励信号，且推理开销高。
失败状态量化模糊：现有方法假设进度严格单调，依靠简单的 video rewinding 模拟回退，无法刻画真实的非线性操作错误。
粗粒度子任务划分丢失关键的内部转移：长程任务中的恢复、纠正等关键动作落在子任务边界内部被忽略。

1.3 ARM 的核心思路

关键定位：与其定义难以标定的"绝对进度"，不如让标注者只判断两个状态之间是变好、变差还是停滞。这种相对判断更直观、跨标注者一致性更高，且天然兼容回退/恢复行为。

二、核心方法

ARM 框架由三个协同模块组成：(A) Advantage Reward Model；(B) Global Progress Reconstruction；(C) Advantage-Weighted Behavior Cloning。

2.1 Tri-state 轻量标注策略

对任意一对观测 $(s_{t}, s_{t + k})$ ，标注者只需给出一个三值标签 $y \in {- 1, 0, + 1}$ ：

+1（Progressing）：状态有效推进任务目标
−1（Regressing）：状态偏离目标 / 出错 / 失败
0（Stagnant）：无实质进展（等待、空闲）

这种范式将传统的"为每帧打 $P \in [0, 1]$ 分"的回归任务，重定义为离散三分类。论文用户研究显示：

人类标注速率：100（子任务分割）→ 250 样本/8h（Tri-state），2.5× 加速
自动标注（模型推理）：> 2000 样本/8h，> 20× 加速
标注一致性更高，认知负担显著降低

2.2 MIMO Transformer 架构

传统的 SARM 等奖励模型是 MISO（Multi-Input Single-Output）：一次输入一段历史，输出一个标量进度。ARM 改为 MIMO：在一个因果窗口 $W_{t} = {o_{t - 4 k}, \dots, o_{t}}$ 内并行预测多个相邻状态对的相对优势。

多模态融合

对窗口内每个时间步 $i$ ，融合三路信号：(i) CLIP-ViT-B/32 视觉特征 $v_{i}$ ；(ii) 机器人本体感知状态 $s_{i}$ ；(iii) 任务指令 $g$ ，投影到统一 $d$ 维隐空间：

x_{i} = MLP (v_{i}) + MLP (s_{i}) + MLP (g)

序列 ${x_{i}}$ 经 8 层 Transformer Encoder 得到时间感知的隐表征：

{h_{t - 4 k}, \dots, h_{t}} = Transformer ({x_{i}}_{i = t - 4 k}^{t})

双输出头

ARM 用两个互补头联合优化：

Multi-frame Advantage Head（区间分类头）：对相邻隐状态对 $(h_{i}, h_{i + 1})$ 预测三值优势 $Δ \hat{y} \in {- 1, 0, + 1}$ ，标准交叉熵损失 $L_{int}$ 。
Task Completion Head：预测当前观测是否为成功终态 $C_{t} \in [0, 1]$ ，作为绝对锚点。由于成功帧极度稀缺，使用 Focal Loss 处理类别不均衡：

L_{succ} = FocalLoss (C_{t}, 1 [P_{t} \geq 1 - ϵ])

总损失：

L_{ARM} = λ_{int} L_{int} + λ_{succ} L_{succ}

直觉：区间头负责"局部相对方向感"，完成头负责"全局位置锚点"。前者像人感受运动趋势，后者像 GPS 定位终点。两者结合后，再通过累积重建得到全局密集进度。

2.3 全局进度重建

MIMO 架构天然支持高效推理与全序列重建：

并行推理：把长视频按非重叠片段切分，作为单次 forward 的 batch 输入，避免滑动窗口的冗余计算。
末段补齐：对短于窗口大小的尾段，用末帧复制 padding，最终聚合时丢弃 padding 区域的预测。
从相对到绝对：以完成头预测的成功状态为锚点（ $P_{T} = 1.0$ ），反向累积 $Δ \hat{y}$ 得到完整的密集进度曲线 $P_{t}$ ：

P_{t} = P_{T} - \sum_{τ = t}^{T - 1} α \cdot Δ {\hat{y}}_{τ}

（论文未给出具体形式，这里用 schematic 表示）

定性结果显示，ARM 重建的曲线在 $t = 69 s \to 70 s$ 这种细粒度回退时刻能精确捕捉"进度小幅下降"，而 SARM 的子任务分段曲线只能呈现台阶式跳跃。

2.4 Advantage-Weighted Behavior Cloning（AW-BC）

长度自适应增益

对动作块（horizon $H$ ），定义增益 $Δ G_{t}$ 时引入长度归一化消除不同 episode 时长造成的梯度尺度差异：

Δ G_{t} = (P_{t + H} - P_{t}) \cdot \frac{L_{seq}}{\bar{L}}

其中 $L_{seq}$ 是当前 episode 长度， $\bar{L}$ 是数据集平均长度。这确保短序列不会因为相同绝对进度变化而产生过大的权重。

统计权重映射

设当前 batch 内 ${Δ G_{i}}$ 的均值和标准差为 $μ, σ$ ，定义剪辑边界 $b_{lower} = μ - 2 σ$ ， $b_{upper} = μ + 2 σ$ ，权重通过线性映射并 clamp 到 $[0, 1]$ ：

{\tilde{w}}_{i} = clamp (\frac{Δ G_{i} - b_{lower}}{b_{upper} - b_{lower} + ϵ}, 0, 1)

回退样本（ $Δ G < 0$ ）权重趋于 0 被自动过滤；高优势样本权重趋于 1；离群值被裁剪。

最终目标

L_{AW-BC} (θ) = E_{(s, a) \sim D} [- \tilde{w} (s, a) \log π_{θ} (a ∣ s)]

与 AWR 的理论联系

该目标可视为 Advantage-Weighted Regression 的变体：

max_{θ} E_{(s, a) \sim D} [\tilde{w} (s, a) \log π_{θ} (a ∣ s)]

ARM 充当一个学到的 Critic，提供优势估计 $Δ G_{t}$ 引导策略更新，相当于在不需要环境奖励的情况下完成离线策略改进。

三、实验结果

3.1 任务与数据

任务：双臂叠毛巾，8 个子阶段（取毛巾 → 平铺 → 纵向折两次 → 横向折两次 → 装入收纳盒），120 秒时限
硬件：AgileX ALOHA 6-DoF 双臂遥操，3 路 RGB（高位 + 双手腕），14 维本体状态
数据集：972 episodes（20 小时），其中 809 专家演示 + 163 DAgger 纠错轨迹
VLA 主干：GR00T-N1.5（3B 参数）+ DiT Flow Matching 动作头，action horizon $H = 32$

3.2 奖励模型质量评估

指标	SARM	ARM (Ours)
进度重建 MSE ↓	0.0059	0.0014
成功识别准确率（SE 12 条）	83.3%	100%
失败识别准确率（FE 12 条）	91.6%	100%

ARM 在重建保真度和终态识别上全面超越 SARM。定性曲线显示 SARM 在子任务边界处出现台阶式跳跃，而 ARM 平滑跟随真值，对回退期的"凹陷"也能精准捕捉。

3.3 推理效率（MIMO 优势）

方法	架构	吞吐量 (it/s)	相对加速
Qwen3-VL（VLM 标注）	MISO	1.03	1×
SARM（基线奖励模型）	SISO	3.9	3.8×
ARM	MIMO	14.1	13.7×

注：ARM 的有效吞吐 = $2.82 \times 5$ （每次前向输出 5 个 token 的优势预测），单 A100 测试。MIMO 通过共享特征表示在大规模数据集标注阶段显示出关键的可扩展性优势。

3.4 下游策略性能

方法	成功率 (%)	任务吞吐量 (eps/hr)	折叠精度 (0–5)
BC-Baseline (GR00T-N1.5)	62.1	18	2.2
RA-BC (GR00T + SARM)	78.5	24	2.7
AW-BC (GR00T + ARM)	99.4	32	3.6

关键观察：

ARM 直接把成功率从 62.1% 推到接近完美的 99.4%，绝对提升 +37.3%
任务吞吐量提升表明优势加权不仅过滤错误样本，还引导策略学到更果断、高效的轨迹
折叠精度（人工 0–5 评分）从 2.2 → 3.6，证明密集奖励信号对多阶段对齐的细粒度监督价值

3.5 消融实验

配置	Task Seg.	Tri-state	RA-BC	AW-BC	成功率 (%)
SARM	✓	–	✓	–	78.5
ARM	–	✓	✓	–	92.3
ARM (Full)	–	✓	–	✓	99.4

Tri-state vs. 子任务分段（SARM → ARM+RA-BC）：+13.8%，证明 Tri-state 标注本身的质量优势
AW-BC vs. RA-BC（ARM+RA-BC → ARM+AW-BC）：+7.1%，证明长度自适应优势加权的额外价值
完整 ARM 比 SARM 共提升 +20.9%，体现两个组件之间的强协同

四、局限性与未来方向

单一长程任务验证：实验只在双臂叠毛巾上做，未在多任务、多场景下系统验证 Tri-state 标注的可迁移性
依赖少量人工冷启动 + 自标注：完全无人参与的纯自动标注效果未经严格量化
完成头依赖任务定义：对于没有明确"成功终态"的任务（如清洁、整理类持续性任务），完成头作为锚点的范式可能失效
窗口大小 5 帧、采样 1Hz 的设定较固定：对极快速或极慢速任务可能需要适配
离线 RL 风格的 BC 加权而非真正的在线 RL：无在线 rollout 探索能力，性能上限受演示数据覆盖度约束
缺少与 Robo-Dopamine、RoboReward、LRM 等同期通用奖励模型的直接对比：当前实验只对比了 SARM 这一同源基线

五、个人思考

5.1 "相对优势 vs. 绝对进度"是奖励建模的范式之争

ARM 的核心 insight 与本项目中的几篇同期工作形成了一个有趣的范式对照：

范式	代表工作	监督信号	处理回退能力
绝对帧级进度回归	RoboReward、ROBOMETER、TOPReward	$P_{t} \in [0, 1]$	弱（单调假设）
轨迹间偏好比较	ROBOMETER（辅助）、RL-VLM-F	"A 优于 B"	中等
相对状态优势分类	ARM、VLAC	$Δ y \in {-, 0, +}$	强（原生支持）
多维度帧级综合	LRM	时序对比 + 进度 + 完成	中等

ARM 与 VLAC 都识别到"相对优势"的价值，但 VLAC 仍假设进度与时间正相关，而 ARM 通过完成头与时间锚点解耦，原生兼容回退。这是对 SARM/RoboReward 这类绝对进度方法的根本性突破。

5.2 MIMO 不只是工程技巧

从 SISO/MISO → MIMO 看似只是架构改进，但其实带来了质变：

语义：MISO 输出单点进度，MIMO 输出区间转移序列——后者天然适合"相对优势"的表达
效率：13.7× 的加速使得百万级数据集自动标注成为可能，这是 LRM、ROBOMETER 等大规模训练奖励模型工作的关键基础设施
可扩展：MIMO 头可以输出更丰富的预测（如分阶段优势、多尺度优势），论文留下了进一步扩展的空间

5.3 与 SARM 的关系：从增量到结构性改进

ARM 名义上是 SARM 的扩展，但实际上做了三处结构性改造：

标注协议：子任务分段（高认知负担、不一致）→ Tri-state（低认知负担、一致性高）
架构：MISO（每次单输出）→ MIMO（并行多输出）
目标：连续回归 → 离散分类

任何一处都可以独立成为一篇工作，但 ARM 把它们整合成一个统一框架，并通过完成头作为"锚点"巧妙地把分类输出还原回连续进度曲线。这种"分类→重建"的设计很优雅——既保留了离散分类对噪声的鲁棒性，又保留了下游 BC 加权所需的连续信号。

5.4 与 RoboReward / LRM / ROBOMETER 的功能定位差异

维度	RoboReward	ROBOMETER	LRM	ARM
奖励粒度	Episode 级	帧级	帧级	Action chunk 级（H=32）
通用性	多具身通用	多具身通用	多具身通用	单任务专用
数据规模	45K	1M	24 源	972 episodes
主要用途	RL 奖励/数据策展	RL 奖励	在线 PPO	离线 BC 加权
失败数据处理	反事实重标注	偏好比较	时序对比	DAgger 纠错 + 回退识别

ARM 的定位很清晰：不追求通用奖励模型，而是为单一长程任务做最优的密集监督。这种"专用化"策略在实际部署中可能更具落地价值——在已知任务上花 250 样本×几小时人工 + 自动标注就能显著提升 VLA 性能。

5.5 99.4% 成功率背后的"幸存者偏差"风险

一个非常突出的实验结果是 ARM 把 BC 从 62.1% 拉到 99.4%。但需要注意：

数据集本身只有 972 episodes，且包含 163 条人工 DAgger 纠错轨迹——这意味着失败案例已经被人工"教过"如何恢复
AW-BC 的核心机制是过滤次优 + 强化成功，这在一个已经覆盖了主要错误模式的数据集上效果会被放大
在数据覆盖度更稀疏的真实场景中，AW-BC 的优势可能没这么夸张

这并不否定 ARM 的价值，但提醒读者：99.4% 的数字体现的是"训练数据被充分利用"而非"凭空生成新能力"——这正是离线 BC 加权方法的本质特征。

5.6 与 PTR (2026) 的有趣对比

PTR 同样是无奖励的离线后训练方法，但走的是 posterior identification + 保守加权的路线，强调跨构型迁移。ARM 走的是"先训练奖励模型 → 再 BC 加权"的两阶段路线，强调密集进度信号的精确性。两者代表了"无奖励"思路下的两种不同实现：

PTR：完全跳过奖励建模，用 InfoNCE 学到的状态-动作-下状态判别器近似优势
ARM：显式训练一个奖励模型，但避免绝对进度的歧义性

ARM 的方法在长程任务的细粒度监督上更直接，PTR 的方法在跨构型/跨任务迁移上更具通用性。

参考

SARM (2025)：ARM 直接对照的基线工作，子任务分段 + MISO 进度回归，被 ARM 在 MSE、成功识别、推理速度、下游 RL 全面超越
VLAC (2025)：同样使用 pairwise progress delta 作为相对奖励，但仍假设进度时间正相关，是 ARM 的最近邻工作
RoboReward (2026)：Episode 级离散进度奖励，反事实重标注解决数据分布问题，定位互补
LRM (2026)：帧级三维度奖励，在线 PPO 集成，与 ARM 的 chunk 级离线 BC 加权形成范式对照
ROBOMETER (2026)：帧级进度 + 轨迹间偏好双目标，强调失败数据利用
AWR (Peng et al., 2019)：ARM AW-BC 的理论根源，advantage-weighted regression
GR00T-N1.5 (2025)：ARM 实验所用的 VLA 主干（3B 参数 + DiT Flow Matching 动作头）
Focal Loss (Lin et al., 2018)：ARM 完成头处理稀疏成功帧的关键损失函数

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

ARM：长程操作任务的优势奖励建模 ​

一句话总结 ​

一、问题与动机 ​

1.1 长程操作中 RL 的奖励瓶颈 ​

1.2 现有进度奖励范式的三大局限 ​

1.3 ARM 的核心思路 ​

二、核心方法 ​

2.1 Tri-state 轻量标注策略 ​

2.2 MIMO Transformer 架构 ​

多模态融合 ​

双输出头 ​

2.3 全局进度重建 ​

2.4 Advantage-Weighted Behavior Cloning（AW-BC） ​

长度自适应增益 ​

统计权重映射 ​

最终目标 ​

与 AWR 的理论联系 ​

三、实验结果 ​

3.1 任务与数据 ​

3.2 奖励模型质量评估 ​

3.3 推理效率（MIMO 优势） ​

3.4 下游策略性能 ​

3.5 消融实验 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 "相对优势 vs. 绝对进度"是奖励建模的范式之争 ​

5.2 MIMO 不只是工程技巧 ​

5.3 与 SARM 的关系：从增量到结构性改进 ​

5.4 与 RoboReward / LRM / ROBOMETER 的功能定位差异 ​

5.5 99.4% 成功率背后的"幸存者偏差"风险 ​

5.6 与 PTR (2026) 的有趣对比 ​

参考 ​