Skip to content

RoboReward:通用视觉-语言奖励模型用于机器人学习

论文:RoboReward: General-Purpose Vision-Language Reward Models for Robotics

作者:Tony Lee*, Andrew Wagenmaker*, Karl Pertsch*(*共同核心贡献者)

机构:Stanford University、UC Berkeley

发布时间:2026年1月(arXiv v2)

🔗 arXiv | 项目主页/排行榜


一句话总结

构建了一个基于 Open X-Embodiment 和 RoboArena 的大规模机器人奖励数据集(45K 训练 + 2.8K 人工验证测试),通过反事实重标注时序裁剪解决成功数据偏多的问题,微调 Qwen3-VL(4B/8B)为 episode 级离散进度奖励模型(1-5分),在 22 个 VLM 中排名第一,并在真实机器人 RL 中大幅超越 Gemini Robotics-ER 1.5。


一、问题与动机

1.1 机器人 RL 的奖励瓶颈

RL 算法(如 DSRL)已经能在真实世界中高效训练机器人策略,但其广泛应用受限于奖励函数的获取成本:要么需要人工逐 episode 标注(费时费力),要么需要手工设计脆弱的奖励函数(反复调试)。奖励设计成为阻碍 RL 在通用机器人场景中落地的核心瓶颈。

1.2 VLM 作为奖励模型的现状

虽然 VLM 在理论上可以替代人工奖励,但论文发现:

  1. 现有 VLM 的奖励准确度不够可靠:22 个前沿 VLM 的评测暴露出显著的跨具身体/跨场景泛化差距——即使是专门为机器人训练的 Gemini Robotics-ER 1.5,在 RoboRewardBench 上也仅排名第 11。
  2. 缺乏标准化评估:此前没有一个涵盖多机器人、多任务、平衡成功/失败的统一基准来衡量 VLM 的奖励能力。
  3. 训练数据偏斜严重:大规模机器人数据集(如 Open X-Embodiment)几乎全是成功演示,无法训练需要区分成功与失败的奖励模型。

1.3 RoboReward 的核心思路

关键定位:不是从零设计新的奖励建模范式,而是系统性地解决数据和评估两个基础设施问题——用负样本增强管线补齐失败数据,用人工验证基准量化奖励质量,用微调后的开源模型证明"对症下药"的数据策展比模型规模更重要。


二、核心方法

2.1 奖励类型选择:为什么是离散进度分?

论文首先在 Robomimic 仿真中做了关键的预实验:

  • 二元成功信号 vs. 连续进度 vs. 离散进度(1-5分)
  • 结果:两种进度奖励的 RL 收敛速度远超二元信号,且连续与离散进度效果相当
  • 选择离散进度({1, 2, 3, 4, 5})的理由:RL 效果好 + 人工标注一致性高

进一步发现奖励准确度与下游 RL 性能之间存在强正相关(r = 0.83),验证了离线评估奖励模型准确度可以有效预测在线 RL 性能

2.2 数据来源与构成

数据源特点角色
Open X-Embodiment (OXE)~1M 真实机器人演示,22 种具身体,但几乎全是成功样本多样性骨架
RoboArenaFranka 平台的真实策略评估数据,天然包含成功和失败有机失败样本

最终数据集:54,135 个样本(训练 45,072 / 验证 6,232 / 测试 2,831),覆盖 14 种具身体、多任务、混合视角。

2.3 负样本增强管线(核心创新)

由于 OXE 数据几乎全是成功(分数 5),论文提出了两种互补的"逆 HER"策略来合成失败/部分成功样本:

策略一:反事实重标注(Counterfactual Relabeling)

核心思想:视频不变,换指令。对同一段成功视频,合成新的任务指令,使得该视频对新指令而言只是部分成功或完全失败。

流程(多阶段管线):

  1. VLM(GPT-5 mini)详细描述视频内容
  2. LLM(GPT-5 mini)基于描述规划不同分数对应的失败模式
  3. 文本模型(Qwen3-4B)为每个分数(1-4)生成具体的反事实指令
  4. VLM(GPT-5 mini)验证生成质量,拒绝不一致的样本

示例:原始任务"把辣椒放进锅里"(成功,5分)→ 生成"把辣椒放到架子上"(部分进步,3分)、"清洗灶台上的锅"(无进展,1分)。

策略二:时序裁剪(Negative Clipping)

核心思想:指令不变,截断视频。将成功视频在不同时间点截断,生成"做到一半"的部分完成样本。

实现:对每条成功轨迹,在早期、中期、晚期截断点各生成一个裁剪版本,保留原始指令不变。

进度评分标准(Rubric)

  • 1 分(无进展):终态无任何目标相关变化
  • 2 分(最小进展):有微小但不足的变化
  • 3 分(部分完成):有明显进展但违反主要要求或多个要求
  • 4 分(接近完成):区域和意图正确但缺失单个次要要求
  • 5 分(完美完成):满足所有要求

2.4 模型训练

  • 基础模型:Qwen3-VL(4B 和 8B 两个规格)
  • 微调策略:冻结视觉骨干,微调融合层和 LLM 层
  • 输入:任务描述 + 完整 episode 视频
  • 输出:1-5 离散进度分数
  • 训练细节:3 个 epoch,余弦学习率衰减,有效批大小 32
  • 选择标准:在验证集上 MAE 最低的 checkpoint

2.5 评估基准:RoboRewardBench

测试集经过人工逐样本验证——标注者确认每个奖励标签在给定视频和任务描述下是否合理。不通过验证的样本被丢弃,最终形成 2,831 个干净的评估样本。


三、实验结果

3.1 RoboRewardBench 基准测试(22 个 VLM)

排名模型总体 MAE ↓RoboArena ↓
1RoboReward 8B0.6650.768
2GPT-5 mini0.6910.862
3GPT-50.8111.028
4RoboReward 4B0.8450.806
5Gemini 3 Pro0.8511.234
7Qwen3-VL 8B(未微调)0.8920.847
11Gemini Robotics-ER 1.50.9061.002
22Qwen2.5-VL 3B1.6071.443

关键观察:

  1. 数据比规模重要:8B 参数的 RoboReward 超越了所有前沿大模型(包括 GPT-5、Gemini 3 Pro),微调带来的 MAE 降幅(0.892 → 0.665)远超模型扩增的收益。
  2. 泛化差距显著且不均匀:即使排名第一的 RoboReward 8B,在个别子集(如 UTokyo xArm Bimanual,MAE 1.394)上仍表现较差。没有任何模型在所有子集上都是最优的。
  3. 专用机器人模型未必更好:Gemini Robotics-ER 1.5 虽然专门为具身推理训练,但在总体排名中仅列第 11,说明通用物理推理仍是开放挑战。

3.2 真实机器人 RL 实验

在 WidowX 250 机械臂上用 DSRL 微调 BridgeData V2 预训练的扩散策略:

奖励来源Pick-and-place monkeyOpen drawer
基线策略(无 RL)5%10%
Gemini Robotics-ER 1.510%(+5)45%(+35)
RoboReward 8B50%(+45)80%(+70)
人工奖励(上界)75%(+70)90%(+80)

关键观察:

  1. RoboReward 8B 大幅缩小了与人工奖励的差距,特别是在 Open drawer 任务上(80% vs. 90%)。
  2. Gemini Robotics-ER 1.5 在 Pick-and-place 任务上几乎无效(仅 +5%),而 RoboReward 8B 带来了 +45% 的提升。
  3. 离线基准排名与在线 RL 表现一致:RoboRewardBench 上 MAE 更低的模型,在真实 RL 中也产生更好的策略——验证了基准的实用价值。

3.3 数据混合消融

数据混合总体 MAE ↓RoboArena ↓
完整数据0.8450.806
去掉所有负样本增强1.4500.797
去掉时序裁剪1.0750.813

关键发现

  1. 仅靠 RoboArena 的有机失败数据,在 RoboArena 子集上表现相当(0.797 vs. 0.806),但在总体基准上灾难性退化(1.450 vs. 0.845)——单一平台的失败样本不足以泛化
  2. 反事实重标注是最关键的增强手段,时序裁剪提供额外的鲁棒性。

3.4 VLM 奖励模型的定性失败分析

论文详细分析了 Gemini Robotics-ER 1.5 的三类典型错误:

  • 假阳性(给失败打高分):机器人未成功抓住抽屉把手、抽屉未打开,但模型给 5/5
  • 假阴性(给成功打低分):机器人成功拉开抽屉,但模型仅给 2/5
  • 幻觉式判断:猴子仍悬空未放下,模型判定为完美完成(5/5)

深层原因:VLM 能理解场景的高层语义,但在细粒度的时空状态追踪上失败——它倾向于根据部分视觉证据"脑补"典型的操作叙事,而非精确追踪实际的物理状态变化。


四、局限性与未来方向

  1. 仅评估 episode 级奖励:RoboReward 在 episode 结束后给出单一进度分,不提供逐步反馈。论文自身的 Robomimic 实验表明进度分优于二元信号,但未探索更密集的帧级奖励。
  2. 泛化差距仍然显著:即使是最好的模型,在某些子集上的 MAE 仍超过 1.0(相当于平均偏差超过一个进度等级),距离可靠的通用奖励模型仍有差距。
  3. 负样本质量依赖 VLM 管线:反事实重标注的质量取决于 GPT-5 mini 的视频理解和指令生成能力,且管线过于复杂/昂贵,无法在线运行。
  4. 短程任务为主:当前数据集和评估聚焦短程操作任务,长程多阶段任务的信用分配和进度估计是公认的更难问题。
  5. 与人工奖励仍有差距:真实 RL 实验中,RoboReward 8B 在两个任务上分别落后人工奖励 25% 和 10%,说明 VLM 奖励模型尚未完全替代人工。

五、个人思考

5.1 与 LRM 的直接对比

RoboReward 和 LRM 代表了两种不同的 VLM 奖励建模哲学:

维度RoboRewardLRM
基础模型Qwen3-VL-4B/8BQwen3-VL-8B
奖励粒度Episode 级(整条轨迹打一个 1-5 分)帧级(每一步即时反馈)
奖励维度单一离散进度分三种互补模态(对比/进度/完成)
训练方式冻结视觉骨干,微调融合层+LLMLoRA 适配
核心创新负样本数据增强管线三维度奖励设计 + 在线 RL 集成
主要用途Episode 结束后的事后评估/稀疏奖励在线闭环 RL 实时驱动
评估方式真实机器人 RL(WidowX)ManiSkill3 仿真(零样本)
数据策略反事实重标注 + 时序裁剪时序单调性假设 + 无标注帧采样

有趣的是,LRM 在 ManiSkill3 上用 RoboReward-8B 作为基线并超越了它(LRM rcomp 60.93% vs. RoboReward-8B 59.06%)。但需注意这是在仿真环境零样本的设置下,且 RoboReward 是为 episode 级评估而非帧级在线反馈设计的,用于在线 RL 并非其最佳使用场景。

5.2 "数据 > 规模"的启示

RoboReward 最引人注目的结果是:8B 模型通过 45K 高质量数据的微调,在奖励准确度上超越了 GPT-5、Gemini 3 Pro 等参数量大得多的前沿模型。这印证了一个越来越明确的趋势——在垂直领域,精心策展的数据比模型规模更有杠杆效应。反事实重标注管线虽然复杂且依赖强 VLM,但它解决了一个根本性的数据分布问题:没有失败样本,模型就无法学会区分成功与失败。

5.3 离线评估的实用价值

论文最有价值的发现之一是:RoboRewardBench 上的 MAE 排名与真实机器人 RL 的策略改进效果高度一致。这意味着我们不需要每次都做昂贵的真实机器人实验来评估奖励模型——一个设计良好的离线基准就足以预测实际效果。这为奖励模型的快速迭代提供了重要的方法论支撑。

5.4 VLM 的"幻觉"问题在机器人领域更致命

论文对 Gemini Robotics-ER 1.5 失败案例的分析尤其发人深思:模型能正确描述场景中的物体和大致动作,但会"脑补"关键的成功事件(如"手指夹住了把手"、"放下了猴子")。在文本对话中,这类幻觉可能无伤大雅;但在 RL 训练中,一次假阳性就可能强化错误行为,一次假阴性就可能抑制正确行为。机器人奖励建模对 VLM 的时空精度要求,远高于通常的视觉问答任务


参考

  • LRM (2026):同期帧级在线奖励模型,三维度设计(对比/进度/完成),用 RoboReward 作为基线之一
  • ROBOMETER (2026):同期通用奖励模型,轨迹间偏好比较 + 失败数据利用
  • RL-VLM-F (2024):用 VLM 偏好学习代理奖励函数
  • DSRL (2025):扩散策略的 RL 微调算法,RoboReward 真实实验所用的 RL 框架
  • Robo-Dopamine (2025):过程奖励建模用于高精度操作,同期工作但数据未公开