ARM:长程操作任务的优势奖励建模
论文:ARM: Advantage Reward Modeling for Long-Horizon Manipulation
作者:Yiming Mao, Zixi Yu, Weixin Mao†, Yinhao Li, Qirui Hu, Zihan Lan, Minzhao Zhu, Hua Chen*
机构:LimX Dynamics、北京邮电大学、浙江大学
发布时间:2026 年 4 月(arXiv v1,尚未中稿)
分类标签:
相对优势奖励Tri-state 标注MIMO TransformerAW-BC长程操作
一句话总结
将奖励建模从"难以量化的绝对进度回归"转向"相对优势分类",通过 Tri-state(Progressing/Regressing/Stagnant)轻量标注 和 MIMO Transformer 架构 训练奖励模型,用 任务完成头 作为锚点把局部相对预测累积重建为全局密集进度曲线,再用 Advantage-Weighted Behavior Cloning 自动过滤次优样本,在长程双臂叠毛巾任务上以 99.4% 成功率超越 SARM(78.5%)和原始 BC(62.1%)。
一、问题与动机
1.1 长程操作中 RL 的奖励瓶颈
VLA 模型已经在通用机器人操作上取得显著进展,但绝大多数依赖模仿学习(IL),而 IL 受限于:(a) 数据采集成本极高;(b) 人类演示中固有的次优性和噪声;(c) 长程任务中收敛困难。RL 提供了一种从次优演示中自我提升的可能性,但 稀疏奖励(如二元成功)难以提供足够的学习信号,密集奖励 则陷入"奖励工程瓶颈"。
1.2 现有进度奖励范式的三大局限
论文将现有的进度奖励方法(SARM、GVL、ReWiND、Robo-Dopamine 等)归纳出三个核心问题:
- 零样本 VLM 不可靠且昂贵:VLM 缺乏空间几何接地,常产生非单调震荡的奖励信号,且推理开销高。
- 失败状态量化模糊:现有方法假设进度严格单调,依靠简单的 video rewinding 模拟回退,无法刻画真实的非线性操作错误。
- 粗粒度子任务划分丢失关键的内部转移:长程任务中的恢复、纠正等关键动作落在子任务边界内部被忽略。
1.3 ARM 的核心思路
关键定位:与其定义难以标定的"绝对进度",不如让标注者只判断两个状态之间是变好、变差还是停滞。这种相对判断更直观、跨标注者一致性更高,且天然兼容回退/恢复行为。
二、核心方法
ARM 框架由三个协同模块组成:(A) Advantage Reward Model;(B) Global Progress Reconstruction;(C) Advantage-Weighted Behavior Cloning。
2.1 Tri-state 轻量标注策略
对任意一对观测
- +1(Progressing):状态有效推进任务目标
- −1(Regressing):状态偏离目标 / 出错 / 失败
- 0(Stagnant):无实质进展(等待、空闲)
这种范式将传统的"为每帧打
- 人类标注速率:100(子任务分割)→ 250 样本/8h(Tri-state),2.5× 加速
- 自动标注(模型推理):> 2000 样本/8h,> 20× 加速
- 标注一致性更高,认知负担显著降低
2.2 MIMO Transformer 架构
传统的 SARM 等奖励模型是 MISO(Multi-Input Single-Output):一次输入一段历史,输出一个标量进度。ARM 改为 MIMO:在一个因果窗口
多模态融合
对窗口内每个时间步
序列
双输出头
ARM 用两个互补头联合优化:
- Multi-frame Advantage Head(区间分类头):对相邻隐状态对
预测三值优势 ,标准交叉熵损失 。 - Task Completion Head:预测当前观测是否为成功终态
,作为绝对锚点。由于成功帧极度稀缺,使用 Focal Loss 处理类别不均衡:
总损失:
直觉:区间头负责"局部相对方向感",完成头负责"全局位置锚点"。前者像人感受运动趋势,后者像 GPS 定位终点。两者结合后,再通过累积重建得到全局密集进度。
2.3 全局进度重建
MIMO 架构天然支持高效推理与全序列重建:
- 并行推理:把长视频按非重叠片段切分,作为单次 forward 的 batch 输入,避免滑动窗口的冗余计算。
- 末段补齐:对短于窗口大小的尾段,用末帧复制 padding,最终聚合时丢弃 padding 区域的预测。
- 从相对到绝对:以完成头预测的成功状态为锚点(
),反向累积 得到完整的密集进度曲线 :
(论文未给出具体形式,这里用 schematic 表示)
定性结果显示,ARM 重建的曲线在
2.4 Advantage-Weighted Behavior Cloning(AW-BC)
长度自适应增益
对动作块(horizon
其中
统计权重映射
设当前 batch 内
回退样本(
最终目标
与 AWR 的理论联系
该目标可视为 Advantage-Weighted Regression 的变体:
ARM 充当一个学到的 Critic,提供优势估计
三、实验结果
3.1 任务与数据
- 任务:双臂叠毛巾,8 个子阶段(取毛巾 → 平铺 → 纵向折两次 → 横向折两次 → 装入收纳盒),120 秒时限
- 硬件:AgileX ALOHA 6-DoF 双臂遥操,3 路 RGB(高位 + 双手腕),14 维本体状态
- 数据集:972 episodes(20 小时),其中 809 专家演示 + 163 DAgger 纠错轨迹
- VLA 主干:GR00T-N1.5(3B 参数)+ DiT Flow Matching 动作头,action horizon
3.2 奖励模型质量评估
| 指标 | SARM | ARM (Ours) |
|---|---|---|
| 进度重建 MSE ↓ | 0.0059 | 0.0014 |
| 成功识别准确率(SE 12 条) | 83.3% | 100% |
| 失败识别准确率(FE 12 条) | 91.6% | 100% |
ARM 在重建保真度和终态识别上全面超越 SARM。定性曲线显示 SARM 在子任务边界处出现台阶式跳跃,而 ARM 平滑跟随真值,对回退期的"凹陷"也能精准捕捉。
3.3 推理效率(MIMO 优势)
| 方法 | 架构 | 吞吐量 (it/s) | 相对加速 |
|---|---|---|---|
| Qwen3-VL(VLM 标注) | MISO | 1.03 | 1× |
| SARM(基线奖励模型) | SISO | 3.9 | 3.8× |
| ARM | MIMO | 14.1 | 13.7× |
注:ARM 的有效吞吐 =
3.4 下游策略性能
| 方法 | 成功率 (%) | 任务吞吐量 (eps/hr) | 折叠精度 (0–5) |
|---|---|---|---|
| BC-Baseline (GR00T-N1.5) | 62.1 | 18 | 2.2 |
| RA-BC (GR00T + SARM) | 78.5 | 24 | 2.7 |
| AW-BC (GR00T + ARM) | 99.4 | 32 | 3.6 |
关键观察:
- ARM 直接把成功率从 62.1% 推到接近完美的 99.4%,绝对提升 +37.3%
- 任务吞吐量提升表明优势加权不仅过滤错误样本,还引导策略学到更果断、高效的轨迹
- 折叠精度(人工 0–5 评分)从 2.2 → 3.6,证明密集奖励信号对多阶段对齐的细粒度监督价值
3.5 消融实验
| 配置 | Task Seg. | Tri-state | RA-BC | AW-BC | 成功率 (%) |
|---|---|---|---|---|---|
| SARM | ✓ | – | ✓ | – | 78.5 |
| ARM | – | ✓ | ✓ | – | 92.3 |
| ARM (Full) | – | ✓ | – | ✓ | 99.4 |
- Tri-state vs. 子任务分段(SARM → ARM+RA-BC):+13.8%,证明 Tri-state 标注本身的质量优势
- AW-BC vs. RA-BC(ARM+RA-BC → ARM+AW-BC):+7.1%,证明长度自适应优势加权的额外价值
- 完整 ARM 比 SARM 共提升 +20.9%,体现两个组件之间的强协同
四、局限性与未来方向
- 单一长程任务验证:实验只在双臂叠毛巾上做,未在多任务、多场景下系统验证 Tri-state 标注的可迁移性
- 依赖少量人工冷启动 + 自标注:完全无人参与的纯自动标注效果未经严格量化
- 完成头依赖任务定义:对于没有明确"成功终态"的任务(如清洁、整理类持续性任务),完成头作为锚点的范式可能失效
- 窗口大小 5 帧、采样 1Hz 的设定较固定:对极快速或极慢速任务可能需要适配
- 离线 RL 风格的 BC 加权而非真正的在线 RL:无在线 rollout 探索能力,性能上限受演示数据覆盖度约束
- 缺少与 Robo-Dopamine、RoboReward、LRM 等同期通用奖励模型的直接对比:当前实验只对比了 SARM 这一同源基线
五、个人思考
5.1 "相对优势 vs. 绝对进度"是奖励建模的范式之争
ARM 的核心 insight 与本项目中的几篇同期工作形成了一个有趣的范式对照:
| 范式 | 代表工作 | 监督信号 | 处理回退能力 |
|---|---|---|---|
| 绝对帧级进度回归 | RoboReward、ROBOMETER、TOPReward | 弱(单调假设) | |
| 轨迹间偏好比较 | ROBOMETER(辅助)、RL-VLM-F | "A 优于 B" | 中等 |
| 相对状态优势分类 | ARM、VLAC | 强(原生支持) | |
| 多维度帧级综合 | LRM | 时序对比 + 进度 + 完成 | 中等 |
ARM 与 VLAC 都识别到"相对优势"的价值,但 VLAC 仍假设进度与时间正相关,而 ARM 通过完成头与时间锚点解耦,原生兼容回退。这是对 SARM/RoboReward 这类绝对进度方法的根本性突破。
5.2 MIMO 不只是工程技巧
从 SISO/MISO → MIMO 看似只是架构改进,但其实带来了质变:
- 语义:MISO 输出单点进度,MIMO 输出区间转移序列——后者天然适合"相对优势"的表达
- 效率:13.7× 的加速使得百万级数据集自动标注成为可能,这是 LRM、ROBOMETER 等大规模训练奖励模型工作的关键基础设施
- 可扩展:MIMO 头可以输出更丰富的预测(如分阶段优势、多尺度优势),论文留下了进一步扩展的空间
5.3 与 SARM 的关系:从增量到结构性改进
ARM 名义上是 SARM 的扩展,但实际上做了三处结构性改造:
- 标注协议:子任务分段(高认知负担、不一致)→ Tri-state(低认知负担、一致性高)
- 架构:MISO(每次单输出)→ MIMO(并行多输出)
- 目标:连续回归 → 离散分类
任何一处都可以独立成为一篇工作,但 ARM 把它们整合成一个统一框架,并通过完成头作为"锚点"巧妙地把分类输出还原回连续进度曲线。这种"分类→重建"的设计很优雅——既保留了离散分类对噪声的鲁棒性,又保留了下游 BC 加权所需的连续信号。
5.4 与 RoboReward / LRM / ROBOMETER 的功能定位差异
| 维度 | RoboReward | ROBOMETER | LRM | ARM |
|---|---|---|---|---|
| 奖励粒度 | Episode 级 | 帧级 | 帧级 | Action chunk 级(H=32) |
| 通用性 | 多具身通用 | 多具身通用 | 多具身通用 | 单任务专用 |
| 数据规模 | 45K | 1M | 24 源 | 972 episodes |
| 主要用途 | RL 奖励/数据策展 | RL 奖励 | 在线 PPO | 离线 BC 加权 |
| 失败数据处理 | 反事实重标注 | 偏好比较 | 时序对比 | DAgger 纠错 + 回退识别 |
ARM 的定位很清晰:不追求通用奖励模型,而是为单一长程任务做最优的密集监督。这种"专用化"策略在实际部署中可能更具落地价值——在已知任务上花 250 样本×几小时人工 + 自动标注就能显著提升 VLA 性能。
5.5 99.4% 成功率背后的"幸存者偏差"风险
一个非常突出的实验结果是 ARM 把 BC 从 62.1% 拉到 99.4%。但需要注意:
- 数据集本身只有 972 episodes,且包含 163 条人工 DAgger 纠错轨迹——这意味着失败案例已经被人工"教过"如何恢复
- AW-BC 的核心机制是过滤次优 + 强化成功,这在一个已经覆盖了主要错误模式的数据集上效果会被放大
- 在数据覆盖度更稀疏的真实场景中,AW-BC 的优势可能没这么夸张
这并不否定 ARM 的价值,但提醒读者:99.4% 的数字体现的是"训练数据被充分利用"而非"凭空生成新能力"——这正是离线 BC 加权方法的本质特征。
5.6 与 PTR (2026) 的有趣对比
PTR 同样是无奖励的离线后训练方法,但走的是 posterior identification + 保守加权的路线,强调跨构型迁移。ARM 走的是"先训练奖励模型 → 再 BC 加权"的两阶段路线,强调密集进度信号的精确性。两者代表了"无奖励"思路下的两种不同实现:
- PTR:完全跳过奖励建模,用 InfoNCE 学到的状态-动作-下状态判别器近似优势
- ARM:显式训练一个奖励模型,但避免绝对进度的歧义性
ARM 的方法在长程任务的细粒度监督上更直接,PTR 的方法在跨构型/跨任务迁移上更具通用性。
参考
- SARM (2025):ARM 直接对照的基线工作,子任务分段 + MISO 进度回归,被 ARM 在 MSE、成功识别、推理速度、下游 RL 全面超越
- VLAC (2025):同样使用 pairwise progress delta 作为相对奖励,但仍假设进度时间正相关,是 ARM 的最近邻工作
- RoboReward (2026):Episode 级离散进度奖励,反事实重标注解决数据分布问题,定位互补
- LRM (2026):帧级三维度奖励,在线 PPO 集成,与 ARM 的 chunk 级离线 BC 加权形成范式对照
- ROBOMETER (2026):帧级进度 + 轨迹间偏好双目标,强调失败数据利用
- AWR (Peng et al., 2019):ARM AW-BC 的理论根源,advantage-weighted regression
- GR00T-N1.5 (2025):ARM 实验所用的 VLA 主干(3B 参数 + DiT Flow Matching 动作头)
- Focal Loss (Lin et al., 2018):ARM 完成头处理稀疏成功帧的关键损失函数