Skip to content

LRM:将 VLM 适配为在线帧级机器人奖励生成器

论文:Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

作者:Yanru Wu, Weiduo Yuan, Ang Qi, Vitor Guizilini, Jiageng Mao†, Yue Wang†

机构:USC Physical Superintelligence Lab、Toyota Research Institute

发布时间:2026年3月

🔗 arXiv | 项目主页


一句话总结

将 Qwen3-VL-8B 通过 LoRA 适配为三种互补的帧级在线奖励生成器(时序对比、绝对进度、任务完成),在 24 个多源数据集上训练后零样本迁移到 ManiSkill3,仅 30 轮 PPO 即显著提升模仿学习策略性能,超越 RoboReward-8B 和 ROBOMETER-4B。


一、问题与动机

1.1 模仿学习的性能天花板

通过大规模预训练获得的通才机器人策略(如 π0.5),在需要高精度控制或长程协调的任务中常常遭遇性能平台期。RL 可以突破这一瓶颈,但其效果严重依赖奖励函数的质量。

1.2 现有 VLM 奖励方法的两个范式及不足

论文将现有工作分为两类:

范式一:Episode 级事后评估(如 RoboReward、ROBOMETER)。 对整条视频轨迹打一个整体进度分或成功检测。虽然有效用于数据集整理,但这种延迟信号缺乏在线 RL 所需的时间分辨率——策略需要每一步都知道自己做得对不对,而不是等整个 episode 结束再回头评判。

范式二:交互式 VLM 反馈(如 RL-VLM-F)。 用 VLM 对观测对提供偏好来学习代理奖励函数。方向正确但未能充分发挥 VLM 的规模优势来生成即时、多维度的在线反馈。

1.3 LRM 的核心思路

关键定位:不是训练一个"事后评审员",而是将 VLM 适配为一个在线奖励引擎——给定当前帧和任务描述,即时输出帧级奖励信号,直接驱动闭环 PPO 优化。


二、核心方法

2.1 从无标注视频中提取奖励监督

LRM 的训练数据来自 24 个多源数据集,覆盖三大领域:

领域数据源价值
真实机器人Open X-Embodiment多具身、多视角,学习具身无关的奖励信号
人类操作HOI4D、EgoDex精细操作标准,弥合机器人粗粒度运动与成功标准之间的差距
仿真环境LIBERO、RoboCasa应对 Real-to-Sim 域差距,学习对渲染和物理引擎鲁棒的奖励逻辑

时序进度采样: 对每条轨迹按归一化时间进度 p{0.0,0.1,0.2,,1.0} 提取 11 个关键帧。利用成功轨迹的时序单调性假设(越晚的帧离完成越近),将视频时间线直接映射为进度标签,无需任何人工标注。

2.2 三维度奖励公式(Tri-faceted Reward)

LRM 的核心设计是将任务评估分解为三个独立训练、互补使用的奖励模态:

模态一:时序对比奖励 rcont(Temporal Contrastive Reward)

输入当前帧 It、前一帧 ItΔt 和任务描述 d,判断哪个状态更接近目标

rcont={+1.0,若 It 比 ItΔt 更接近目标1.0,若 ItΔt 更接近目标0.0,模糊不可判

设计直觉: 相对比较天然缓解了绝对评分的校准问题——模型不需要精确判断"完成了百分之多少",只需要判断"相比之前是进步还是退步"。这与 ROBOMETER 的偏好比较动机一致,但 LRM 在步级(frame-pair) 而非轨迹级(trajectory-pair) 操作。

训练方式:DPO(Direct Preference Optimization)。 将时序进度映射为偏好标签——后一帧总是"更好的"。模型在输出 rcont 之前先进行 Chain-of-Thought 推理,确保奖励基于可验证的物理交互(如物体位移),而非低层视觉噪声:

LDPO(θ;πref)=E[logσ(βlogπθ(yw|I,d)πref(yw|I,d)βlogπθ(yl|I,d)πref(yl|I,d))]

模态二:绝对进度奖励 rprog(Absolute Progress Reward)

输入当前帧 It、初始帧 I0(视觉锚点)和任务描述 d,回归一个归一化完成度

rprog{0.0,0.1,0.2,,1.0}

11 个离散进度等级提供了粗粒度但有序的数值反馈。

训练方式:SFT + CoT。 模型先输出推理过程,再给出进度值:

Lprog=E[logP(rprog,CoTI,d)]

"推理先行"迫使模型在给分之前明确表述物理线索(如"机器手已经抓住了物体但尚未放到目标位置"),提升数值与场景的一致性。

模态三:任务完成奖励 rcomp(Task Completion Reward)

输入当前帧 It 和任务描述 d,二元分类判断任务的语义要求是否完全满足

rcomp={1,语义要求已满足0,否则

训练方式:直接 SFT(无 CoT),保持简洁的终端判断:

Lcomp=E[logP(rcompI,d)]

2.3 三种模态的设计逻辑

三种奖励互补,覆盖了策略优化的不同需求:

模态类型作用类比
rcont相对/方向性提供密集的"进步/退步"梯度指南针
rprog绝对/数值性提供精确的进度锚定里程碑
rcomp终端/二元性锚定成功状态终点线

2.4 在线策略精炼

基础策略:π0.5 SFT 微调得到的模仿学习策略 πSFT 出发。

Interval-Hold 策略: 为弥合 VLM 推理延迟与实时控制需求之间的鸿沟,LRM 每隔 K 步查询一次,奖励缓存并保持 K 步:

rt=wmrm

其中 m 是活跃的奖励模态,wm 是缩放因子。

PPO 优化: 使用 GAE(Generalized Advantage Estimation)计算优势函数:

A^t=l=0Tt1(γλ)lδt+l,δt=rt+γVψ(It+1)Vψ(It)

其中 δt 是基于 LRM 生成奖励 rt 的 TD 误差。


三、实验结果

3.1 LRM 内在质量评估

对比判别模型(rcont):

模型Kendall's τSpearman's ρ
Qwen3-VL(零样本)0.2570.257
LRM(微调)0.2960.296
提升+15.3%+15.3%

进度估计模型(rprog):

指标Qwen3-VLLRM变化
MAE0.3780.302-20.0%
RMSE0.4900.395-19.3%
Acc@$\pm$0.241.95%50.58%+8.63%

任务完成模型(rcomp): 微调后准确率 69.38% vs. 零样本 69.23%,提升微弱。论文指出 Qwen3-VL 本身已具备较强的语义目标识别零样本能力。

3.2 ManiSkill3 闭环策略精炼(零样本)

π0.5 SFT 基线出发,在 320 个并行环境中做 30 轮 RL 迭代:

模型成功率 (%)
π0.5 SFT(基线)56.88
+ RoboReward-8B59.06
+ ROBOMETER-4B56.56
+ rcont(LRM)60.31
+ rprog(LRM)60.00
+ rcomp(LRM)60.93
+ Env Reward(特权上界)66.87

关键观察:

  1. LRM 的三种模态均超越 RoboReward-8B(59.06%)和 ROBOMETER-4B(56.56%),验证了即时帧级奖励优于延迟 episode 级反馈的核心假设。
  2. rcomp(任务完成)表现最强(60.93%),尽管其内在质量提升最小——说明对在线 RL 而言,精确的终端信号比精确的过程估计更重要。
  3. 与特权 Env Reward(66.87%)的差距仍有 ~6%,说明纯视觉奖励在不可观测物理状态(如接触力)上仍有局限。

3.3 开环奖励质量分析

随着 RL 训练推进,LRM 奖励质量与策略性能协同提升

指标SFT → RL-rcompSFT → RL-rprog
ROC-AUC0.660 → 0.7950.874 → 0.950
Pairwise Acc45.4% → 63.9%80.1% → 93.4%
Per-traj Pearson0.257 → 0.3310.577 → 0.671

论文将此现象称为 "涌现同步"(emergent synchronization):随着策略内化 LRM 的物理先验,生成的轨迹具有更清晰的语义标记和更明确的物理转换,反过来让 LRM 的评估更准确。

3.4 真实世界验证

在 Franka FR3 上的 pick-and-place 任务(π0.5 微调 + 60 次 rollout + rcomp 过滤成功轨迹再 SFT):

指标SFT 基线LRM 精炼
成功率38.3% (23/60)51.7% (31/60)

LRM 成功纠正了 SFT 基线将长颈鹿玩具放在碗旁而非碗内的错误。


四、局限性与未来方向

  1. 三种奖励未融合使用:论文分别评估了三种模态但未探索它们的组合(如加权求和或分阶段切换),这可能进一步提升性能。
  2. Interval-Hold 的时间粒度:每 K 步查询一次 VLM 并缓存奖励,可能在快速变化的场景中引入延迟。K 的选择与 VLM 推理速度形成权衡。
  3. 任务完成模型提升微弱:微调仅带来 0.15% 的准确率提升,暗示当前数据和训练策略可能不足以超越 VLM 的零样本能力,或者二元分类本身就是基础 VLM 的强项。
  4. 仅在仿真中做闭环 RL:真实世界实验用的是轨迹过滤 + SFT 的离线方式,而非真正的在线 RL,尚未验证 LRM 在真实机器人闭环 RL 中的表现。

五、个人思考

5.1 与 ROBOMETER 的直接对比

LRM 和 ROBOMETER 是同期的两篇通用机器人奖励模型论文,设计哲学有显著差异:

维度ROBOMETERLRM
基础模型Qwen3-VL-4BQwen3-VL-8B
训练方式全参数微调,新增 tokenLoRA 适配
核心创新轨迹间偏好比较 + 失败数据利用三维度帧级在线奖励
输入粒度整条轨迹(8帧)单帧或帧对
主要用途事后评估(离线 RL、数据过滤、失败检测)在线 RL 闭环驱动
评估环境真实世界 6 OOD 场景ManiSkill3 仿真(零样本)

两者的定位互补:ROBOMETER 更像一个"通用评审员",适合离线数据整理和评估;LRM 更像一个"实时教练",直接嵌入 RL 训练循环。但 ManiSkill3 上 LRM 的 rcomp(60.93%)超越 ROBOMETER-4B(56.56%),暗示帧级在线反馈确实比 episode 级事后评估更适合驱动策略优化

5.2 三维度奖励的认知洞察

论文将奖励分解为"方向梯度 + 数值锚定 + 终端确认"三个维度,这与人类评估复杂任务的认知模式惊人地相似。有趣的是,最简单的二元信号 rcomp 在闭环 RL 中表现最好。这可能暗示:对在线策略优化而言,简单但可靠的终端信号比复杂但嘈杂的过程信号更有价值——策略可以从明确的"完成/未完成"中更高效地学习。

5.3 "涌现同步"的启示

论文发现的策略-奖励协同提升现象值得深思。这意味着 LRM 生成的奖励并非静态的——随着策略变好,LRM 看到的轨迹也更有规律,奖励信号反而更准确。这创造了一个正向循环,但也隐含了一个风险:如果初始策略太差,LRM 的奖励信号可能同样不可靠,导致负向循环。这可能解释了为什么论文选择从一个已经不错的 SFT 基线出发。


参考

  • ROBOMETER (2026):同期通用奖励模型,轨迹间偏好比较,LRM 的主要对比基线
  • RoboReward (2026):通用 VLM 奖励模型,离散 1-5 进度预测,LRM 的另一对比基线
  • RL-VLM-F (2024):用 VLM 偏好学习代理奖励函数,LRM 的前驱工作
  • GVL (2025):In-context 时序排序估计进度,LRM 的时序对比奖励与之有相似灵感
  • π0.5 (2025):VLA 基础模型,LRM 所有策略实验的初始化来源