Skip to content

ROBOMETER:通过轨迹比较扩展通用机器人奖励模型

论文:ROBOMETER: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons

作者:Anthony Liang*, Yigit Korkmaz* 等(*共同一作;Stephen Tu†, Erdem Bıyık†, Jesse Zhang† 共同指导)

机构:USC、UT Dallas、MIT、UW、Ai2、NVIDIA

发布时间:2026年3月

🔗 arXiv | 项目主页


一句话总结

在帧级进度预测的基础上引入轨迹间偏好比较作为辅助监督信号,使奖励模型能有效利用无标注的失败数据,训练出跨具身、跨场景泛化的通用机器人奖励模型,下游策略学习成功率相比最优基线提升 2.4–4.5×。


一、问题与动机

1.1 通用机器人奖励模型的核心困境

当前通用机器人奖励模型(如 RoboReward、RoboDopamine)的训练范式是绝对进度预测:对专家演示的每一帧预测一个 [0,1] 的进度分数(从 0 线性插值到 1)。这种监督方式有两个根本问题:

问题一:失败数据无法利用。 专家轨迹的进度标签很简单——从 0 线性增长到 1。但对于失败轨迹,进度可能先升后降(比如机器人抓住了物体但又掉了),标注这种非单调的密集进度标签既昂贵歧义大。结果是,现实中大量的失败和次优数据被直接丢弃。

问题二:只有轨迹内局部监督,缺乏全局校准。 每条轨迹的进度标签是独立的,模型无法学到"轨迹 A 的执行整体上比轨迹 B 好"这种全局排序关系。这导致奖励模型在面对混合质量的部署数据时,区分成功和失败的能力很弱。

1.2 人类认知的启示

心理学研究表明,人类在内化校准标尺时,相对比较判断("A 比 B 好")比绝对评分("A 值 7 分")更自然、更准确。这一洞察启发了 ROBOMETER 的核心设计:

关键思路:在保留帧级进度预测的基础上,增加轨迹间偏好比较作为辅助监督。偏好比较只需要"哪个更好"的二元判断,不需要精确的进度标注,因此可以自然扩展到无标注的失败数据。

1.3 与 RLHF 偏好学习的区别

值得注意的是,ROBOMETER 与 RLHF 中的偏好学习(如 DPO)有本质区别:

  • RLHF:偏好标签是唯一的监督信号,用于训练特定任务的奖励模型
  • ROBOMETER:偏好比较是辅助目标,与直接进度预测互补;偏好标签通过合成方式自动生成,不需要额外人工标注;目标是训练跨任务、跨具身的通用奖励模型

二、RBM-1M 数据集

ROBOMETER 的训练依赖一个精心构建的大规模数据集 RBM-1M。

2.1 数据规模与组成

数据类型来源示例轨迹数占比
专家演示Open-X、AGIBotWorld、Galaxea 等~846K80%
人类-机器人配对RH20T、MotIF、H2R 等~36K3%
混合质量(含失败)RoboArena、SOAR、FAILSafe 等~140K13%
纯人类视频Epic-Kitchens~37K3%
总计21 种机器人具身~1.06M100%

2.2 数据设计哲学

RBM-1M 的设计重点不是追求轨迹数量最大化,而是最大化视角、场景和具身多样性。特别地,数据集刻意包含大量失败和次优轨迹——这些数据在传统进度预测范式下无法利用,但在 ROBOMETER 的偏好比较框架下可以被有效利用。


三、核心方法

3.1 模型架构与 Token 化

ROBOMETER 基于 Qwen3-VL-4B-Instruct(因果掩码 VLM)构建。为了在不破坏预训练表示的情况下提取奖励信号,论文引入了两种新的可学习 token

Progress Token |prog_token| 在第一条轨迹 o1 的每帧后插入。由于因果掩码的约束,第 t 个 progress token 只能看到 o1 的前 t 帧,产生密集的帧级进度估计

Preference Token |pref_token| 在两条轨迹的末尾插入。它可以看到两条完整轨迹,用于做全局偏好判断

完整的 token 序列结构:

Tok(l,o1,o2)Tok(l)|video_start|[Tok(ot1)|prog_token|]t=1T|split_token|[Tok(ot2)]t=1T|pref_token|

设计要点:

  • Progress token 仅插入第一条轨迹——因为推理时只对单条轨迹预测进度。如果在 o2 的帧间也插入 progress token,它们会通过因果注意力看到 o1 的信息,导致信息泄漏。
  • 两条轨迹固定为相同长度 T,防止模型用轨迹长度作为偏好的代理特征。

3.2 三重训练目标

ROBOMETER 的总损失由三部分组成:

L=Lpref+Lprog+Lsucc

3.2.1 偏好预测损失 Lpref

|pref_token| 的隐状态上训练一个二元分类 MLP MLPpref,预测哪条轨迹更好地完成了任务 l

Lpref=[Iy=1logσ(MLPpref(h|pref_token|))+Iy=2log(1σ(MLPpref(h|pref_token|)))]

其中 y{1,2} 是真实偏好标签。

为什么不用 Bradley-Terry 损失? 传统 RLHF 通常用 Bradley-Terry 模型,对两条轨迹分别计算独立标量分数再做比较。ROBOMETER 选择 BCE 而非 BT 的原因是:两条轨迹在同一个前向传播中处理,|pref_token| 可以通过注意力机制显式地交叉比较两条轨迹的 token,而 BT 损失只通过损失函数间接耦合两个独立分数,无法利用预训练的注意力做跨视频推理。实验验证 BCE 在 Kendall τ 上比 BT 高 0.33(0.655 vs 0.325)。

3.2.2 进度预测损失 Lprog

对第一条轨迹的每帧 progress token 隐状态,预测连续进度值。论文采用 C51 分布式方法而非直接回归:将 [0,1] 区间均匀离散为 N=10 个 bin,进度预测建模为 bin 上的分类分布。

对长度为 T 的轨迹,第 t 帧的真实进度目标为 pt=t/T,通过线性插值投影到相邻 bin 中心形成分类分布 Proj(pt)

Lprog=1Tt=1TCE(Proj(pt), MLPprogress(h|prog_token|,t))

推理时通过期望恢复连续进度值:p^t=i=1Nzip^t,i,其中 zi 是第 i 个 bin 的中心。

为什么用分布式(C51)而不是回归? C51 公式让模型可以表达对进度估计的不确定性——例如对一个模糊帧,模型可以输出在 0.3 和 0.7 两个 bin 上都有较高概率的双峰分布,而回归只能给出一个点估计。

3.2.3 成功预测损失 Lsucc

在同样的 progress token 隐状态上附加成功预测 MLP,预测每帧的二元成功标签。训练时使用批内平衡的加权 BCE来处理正负样本严重不平衡的问题(绝大多数帧都是"未成功"):

Lsucc=BalancedBCE(s1:T, [MLPsuccess(h|prog_token|,t)]1:T)

其中成功标签的定义是:st=0,t<TsT=1。论文还针对每个数据源手动标定了"任务实际完成时间点"(大约在轨迹 80%–95% 处),因为遥操作者通常在任务完成后仍会录几帧。

3.3 数据采样与增强策略

偏好训练所需的 (l,o1,o2,y) 四元组通过三种互补策略从 RBM-1M 动态构造:

策略一:不同质量的比较(Different Expertise)

从相同任务 l 中采样两条质量不同的轨迹(如专家演示 vs. 失败轨迹)。设进度标签更高的为偏好方。核心价值:允许模型利用无密集标注的失败数据——只需要知道"成功的好于失败的"这一简单事实。

策略二:指令负例(Different Tasks)

采样两条执行不同任务的轨迹 τ1,τ2(指令 l1l2),随机选一条的指令作为条件 l,偏好标签指向对应的轨迹。另一条轨迹的进度目标设为 0。核心价值:确保奖励与语言指令对齐——执行错误任务时应得到零奖励。

策略三:视频回放增强(Video Rewind)

从单条专家轨迹中构造合成的失败偏好对。采样索引 1t1<t2<t3T,正例为顺序片段 oc=ot1:t3,负例为包含倒放段的序列 or=[ot1:t3,ot31:t2]核心价值:显式建模"撤销进度"这一 RL 探索中常见的失败模式。

此外,子序列裁剪(Subsequence Trimming) 随机采样起止帧避免模型过拟合固定长度。


四、实验结果

4.1 奖励评估指标

论文使用三个互补的评估指标:

  • VOC r(Value Order Correlation):预测奖励与时间步的 Pearson 相关系数,衡量是否正确反映进度递增
  • Kendall τa:在同一任务的失败/次优/成功轨迹间,模型给出的最终奖励是否保持正确排序
  • Succ–Fail Diff:成功轨迹和失败轨迹最终奖励的平均差值

4.2 奖励对齐主结果

指标GVLVLACRoboDopamineRoboReward-4BRoboReward-8BROBOMETER
VOC r (ID) ↑0.160.160.130.770.820.92
VOC r (OOD) ↑0.210.170.080.880.880.95
Kendall τa (OOD) ↑0.190.080.110.500.470.66

关键观察: ROBOMETER 在 OOD 评估集上 Kendall τa 达到 0.66,比 RoboReward-4B 的 0.50 高出 32%。这意味着 ROBOMETER 在区分成功与失败轨迹方面显著更强——这对下游 RL 策略学习至关重要。

4.3 消融实验——为什么 ROBOMETER 这么强?

论文设计了三个渐进假设并在 LIBERO 和 RBM-EVAL-OOD 上验证:

消融VOC r (LIBERO)Kendall τ (LIBERO)Succ–Fail (LIBERO)
H1: 仅进度预测0.960.630.11
H1: + 偏好预测(无失败数据)0.900.740.22
H2: + 失败数据0.980.920.46
H3: ReWiND 架构(非 VLM)0.48-0.14-0.02

三个关键结论:

  1. 偏好预测本身就有价值(H1): 即使没有失败数据,仅在专家演示间添加偏好监督就能将 Kendall τ 从 0.63 提升到 0.74,Succ–Fail 差值从 0.11 翻倍到 0.22。说明全局比较约束诱导出更好结构化的内部奖励表示

  2. 失败数据的引入带来最大收益(H2): 加入失败数据后,Kendall τ 从 0.74 跃升到 0.92,Succ–Fail 差值提升 4× 以上。这是论文最重要的发现:偏好比较让此前无法利用的失败数据变为宝贵的训练信号。

  3. 预训练 VLM 骨干不可或缺(H3): 用放大版 ReWiND 架构(500M 参数 Transformer,非 VLM)替换 Qwen3-VL,所有指标严重恶化。大规模多模态预训练提供的视觉-语义先验是泛化的基础。

4.4 下游策略学习

自动在线 RL

在 DROID 环境上用 DSRL 训练 π0 策略:

设置π0 基线RoboRewardROBOMETER
单阶段(碗放桌上)20%55%85%
多阶段(玉米入锅 + 盖锅盖)20%20%70%

RoboReward 的关键失败模式:在杂乱场景中频繁给无关物体的操作打最高分(45 次假阳性 vs. ROBOMETER 的 0 次),导致错误的 episode 终止和错误行为的强化。

离线 RL

在 SO-101 机器人上用 IQL 从混合质量数据训练:

任务稀疏奖励RoboRewardROBOMETER
面包放烤箱5%0%50%
红碗放蓝盘0%15%55%

ROBOMETER 在更低的折扣因子 γ=0.9 下表现最优,因为其密集的时间对齐奖励减少了对长程信用分配的依赖。

数据过滤与检索

从无标注多任务 play 数据中检索特定任务的子轨迹,用检索结果 LoRA 微调 π0.5

任务RoboRewardSTRAPSigLIPROBOMETER-Pref
Stir Pot 成功率0%0%0%65%
Open Drawer 成功率15%15%0%70%

平均 4.5× 高于最强基线。基线的高检索率但低成功率源于它们检索了更多失败但任务相关的子轨迹。

零样本失败检测

在 7 个任务 100 条 OOD 轨迹上的平均 F1:

Token-UncertaintyVLACGPT-5-miniRoboReward-4BROBOMETER
0.480.160.330.740.81

ROBOMETER 通过监测进度预测的时间一致性检测失败:不可逆失败(如物体掉落)表现为进度急剧回退,进度不足型失败表现为进度停滞或振荡。

4.5 领域特定微调

在 RoboFAC 数据集(16 任务、53 场景、11K 轨迹)上的微调实验表明 ROBOMETER 是优秀的初始化:

方法VOC rKendall τSucc-Fail Diff ↑
ROBOMETER-4B(零样本)0.6520.4360.141
Qwen3-VL(LoRA 从头训)0.7010.0670.005
Qwen3-VL(全参数从头训)0.7270.1020.008
ROBOMETER-4B(LoRA)0.8750.7860.271
ROBOMETER-4B(全参数)0.8840.8020.302

注意 Qwen3-VL 从头训的 Kendall τ 和 Succ-Fail Diff 几乎为零,而 ROBOMETER 零样本就已远超它们。LoRA 和全参数微调效果接近,说明用单 GPU 即可有效适配。


五、局限性与未来方向

  1. 时间分辨率受限:ROBOMETER 对每条轨迹仅采样 8 帧,无法捕捉精细的时间动态和长程结构。
  2. 失败模式覆盖不全:真实世界的失败模式极其多样且长尾,当前训练数据可能无法完全覆盖。
  3. 缺乏物理状态感知:作为纯视觉-语言模型,ROBOMETER 无法感知接触力、抓握稳定性等隐式物理状态,直到这些因素产生视觉可观测的后果。
  4. 计算成本:4 块 H200 训练约 2 天。虽然不算极端,但对资源有限的团队仍有门槛。

六、个人思考

6.1 与项目中其他论文的联系

与 VLAC 的对比: VLAC 同样是 VLM 奖励模型 + RL 的路线,但 VLAC 以 pairwise progress delta 作为奖励信号,需要实时在线 RL 交互。ROBOMETER 则是一个独立的通用奖励模型,不绑定特定的 RL 算法,应用范围更广(在线 RL、离线 RL、数据过滤、失败检测)。两者可以互补:ROBOMETER 提供通用奖励,VLAC 提供在线 actor-critic 训练框架。

与 RISE 的对比: RISE 用世界模型的价值函数作为奖励来源,但其价值模型是任务特定的(在 LIBERO 子集上训练)。ROBOMETER 追求的是跨具身、跨场景的通用奖励模型。RISE 的"进度估计 + TD 学习"双损失设计与 ROBOMETER 的"进度预测 + 偏好比较"有异曲同工之处——两者都发现了仅靠进度标签不够,需要额外信号来提供成败区分能力。

与 SRPO 的对比: SRPO 使用世界模型隐表征计算 progress-wise 奖励。ROBOMETER 直接在像素空间用 VLM 打分。ROBOMETER 的优势是不需要世界模型,可以零样本迁移到新环境;劣势是推理速度较慢(VLM 前向传播 vs. 隐空间计算)。

6.2 关键洞察

论文中最有价值的发现是偏好监督的"相互增强效应"(mutual reinforcement effect):即使只在专家数据上训练(不引入任何失败数据),偏好目标本身就能提升模型区分成功/失败的能力。这暗示全局比较约束迫使模型学到了更好结构化的奖励空间——不仅仅是"进度递增",而是对"什么是好的执行"有了更深层的理解。

6.3 BCE vs Bradley-Terry 的选择

论文选择 BCE 而非 Bradley-Terry 损失来做偏好预测是一个有趣的工程决策。传统 RLHF 用 BT 是因为奖励模型对单条轨迹独立打分,偏好信号只能通过损失间接传递。而 ROBOMETER 的双视频架构允许 preference token 直接交叉注意两条轨迹,本质上是在做一个比较推理任务而非独立评分任务。这种设计灵感来自语言中的参照游戏(reference games),值得在其他需要比较的场景中借鉴。


参考

  • RoboReward (2026):通用 VLM 奖励模型,用反事实指令标注模拟失败,ROBOMETER 的最强基线
  • ReWiND (2025):小型 Transformer 奖励模型,视频回放增强,ROBOMETER 继承了其 video rewind 策略
  • VLAC (2025):统一 Actor-Critic VLM,pairwise progress delta 稠密奖励 + 真实世界在线 RL
  • GVL (2025):用闭源 LLM 零样本预测任务进度作为奖励
  • C51 (2017):分布式强化学习的奠基工作,ROBOMETER 的进度预测借鉴了其离散化分布公式
  • π₀ / π₀.₅ (2024/2025):VLA 基础模型,ROBOMETER 在线 RL 实验中用于策略初始化