LRM:将 VLM 适配为在线帧级机器人奖励生成器
论文:Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models
作者:Yanru Wu, Weiduo Yuan, Ang Qi, Vitor Guizilini, Jiageng Mao†, Yue Wang†
机构:USC Physical Superintelligence Lab、Toyota Research Institute
发布时间:2026年3月
一句话总结
将 Qwen3-VL-8B 通过 LoRA 适配为三种互补的帧级在线奖励生成器(时序对比、绝对进度、任务完成),在 24 个多源数据集上训练后零样本迁移到 ManiSkill3,仅 30 轮 PPO 即显著提升模仿学习策略性能,超越 RoboReward-8B 和 ROBOMETER-4B。
一、问题与动机
1.1 模仿学习的性能天花板
通过大规模预训练获得的通才机器人策略(如
1.2 现有 VLM 奖励方法的两个范式及不足
论文将现有工作分为两类:
范式一:Episode 级事后评估(如 RoboReward、ROBOMETER)。 对整条视频轨迹打一个整体进度分或成功检测。虽然有效用于数据集整理,但这种延迟信号缺乏在线 RL 所需的时间分辨率——策略需要每一步都知道自己做得对不对,而不是等整个 episode 结束再回头评判。
范式二:交互式 VLM 反馈(如 RL-VLM-F)。 用 VLM 对观测对提供偏好来学习代理奖励函数。方向正确但未能充分发挥 VLM 的规模优势来生成即时、多维度的在线反馈。
1.3 LRM 的核心思路
关键定位:不是训练一个"事后评审员",而是将 VLM 适配为一个在线奖励引擎——给定当前帧和任务描述,即时输出帧级奖励信号,直接驱动闭环 PPO 优化。
二、核心方法
2.1 从无标注视频中提取奖励监督
LRM 的训练数据来自 24 个多源数据集,覆盖三大领域:
| 领域 | 数据源 | 价值 |
|---|---|---|
| 真实机器人 | Open X-Embodiment | 多具身、多视角,学习具身无关的奖励信号 |
| 人类操作 | HOI4D、EgoDex | 精细操作标准,弥合机器人粗粒度运动与成功标准之间的差距 |
| 仿真环境 | LIBERO、RoboCasa | 应对 Real-to-Sim 域差距,学习对渲染和物理引擎鲁棒的奖励逻辑 |
时序进度采样: 对每条轨迹按归一化时间进度
2.2 三维度奖励公式(Tri-faceted Reward)
LRM 的核心设计是将任务评估分解为三个独立训练、互补使用的奖励模态:
模态一:时序对比奖励 (Temporal Contrastive Reward)
输入当前帧
设计直觉: 相对比较天然缓解了绝对评分的校准问题——模型不需要精确判断"完成了百分之多少",只需要判断"相比之前是进步还是退步"。这与 ROBOMETER 的偏好比较动机一致,但 LRM 在步级(frame-pair) 而非轨迹级(trajectory-pair) 操作。
训练方式:DPO(Direct Preference Optimization)。 将时序进度映射为偏好标签——后一帧总是"更好的"。模型在输出
模态二:绝对进度奖励 (Absolute Progress Reward)
输入当前帧
11 个离散进度等级提供了粗粒度但有序的数值反馈。
训练方式:SFT + CoT。 模型先输出推理过程,再给出进度值:
"推理先行"迫使模型在给分之前明确表述物理线索(如"机器手已经抓住了物体但尚未放到目标位置"),提升数值与场景的一致性。
模态三:任务完成奖励 (Task Completion Reward)
输入当前帧
训练方式:直接 SFT(无 CoT),保持简洁的终端判断:
2.3 三种模态的设计逻辑
三种奖励互补,覆盖了策略优化的不同需求:
| 模态 | 类型 | 作用 | 类比 |
|---|---|---|---|
| 相对/方向性 | 提供密集的"进步/退步"梯度 | 指南针 | |
| 绝对/数值性 | 提供精确的进度锚定 | 里程碑 | |
| 终端/二元性 | 锚定成功状态 | 终点线 |
2.4 在线策略精炼
基础策略: 从
Interval-Hold 策略: 为弥合 VLM 推理延迟与实时控制需求之间的鸿沟,LRM 每隔
其中
PPO 优化: 使用 GAE(Generalized Advantage Estimation)计算优势函数:
其中
三、实验结果
3.1 LRM 内在质量评估
对比判别模型(
| 模型 | Kendall's | Spearman's |
|---|---|---|
| Qwen3-VL(零样本) | 0.257 | 0.257 |
| LRM(微调) | 0.296 | 0.296 |
| 提升 | +15.3% | +15.3% |
进度估计模型(
| 指标 | Qwen3-VL | LRM | 变化 |
|---|---|---|---|
| MAE | 0.378 | 0.302 | -20.0% |
| RMSE | 0.490 | 0.395 | -19.3% |
| Acc@$\pm$0.2 | 41.95% | 50.58% | +8.63% |
任务完成模型(
3.2 ManiSkill3 闭环策略精炼(零样本)
从
| 模型 | 成功率 (%) |
|---|---|
| 56.88 | |
| + RoboReward-8B | 59.06 |
| + ROBOMETER-4B | 56.56 |
| + | 60.31 |
| + | 60.00 |
| + | 60.93 |
| + Env Reward(特权上界) | 66.87 |
关键观察:
- LRM 的三种模态均超越 RoboReward-8B(59.06%)和 ROBOMETER-4B(56.56%),验证了即时帧级奖励优于延迟 episode 级反馈的核心假设。
(任务完成)表现最强(60.93%),尽管其内在质量提升最小——说明对在线 RL 而言,精确的终端信号比精确的过程估计更重要。 - 与特权 Env Reward(66.87%)的差距仍有 ~6%,说明纯视觉奖励在不可观测物理状态(如接触力)上仍有局限。
3.3 开环奖励质量分析
随着 RL 训练推进,LRM 奖励质量与策略性能协同提升:
| 指标 | SFT → RL- | SFT → RL- |
|---|---|---|
| ROC-AUC | 0.660 → 0.795 | 0.874 → 0.950 |
| Pairwise Acc | 45.4% → 63.9% | 80.1% → 93.4% |
| Per-traj Pearson | 0.257 → 0.331 | 0.577 → 0.671 |
论文将此现象称为 "涌现同步"(emergent synchronization):随着策略内化 LRM 的物理先验,生成的轨迹具有更清晰的语义标记和更明确的物理转换,反过来让 LRM 的评估更准确。
3.4 真实世界验证
在 Franka FR3 上的 pick-and-place 任务(
| 指标 | SFT 基线 | LRM 精炼 |
|---|---|---|
| 成功率 | 38.3% (23/60) | 51.7% (31/60) |
LRM 成功纠正了 SFT 基线将长颈鹿玩具放在碗旁而非碗内的错误。
四、局限性与未来方向
- 三种奖励未融合使用:论文分别评估了三种模态但未探索它们的组合(如加权求和或分阶段切换),这可能进一步提升性能。
- Interval-Hold 的时间粒度:每
步查询一次 VLM 并缓存奖励,可能在快速变化的场景中引入延迟。 的选择与 VLM 推理速度形成权衡。 - 任务完成模型提升微弱:微调仅带来 0.15% 的准确率提升,暗示当前数据和训练策略可能不足以超越 VLM 的零样本能力,或者二元分类本身就是基础 VLM 的强项。
- 仅在仿真中做闭环 RL:真实世界实验用的是轨迹过滤 + SFT 的离线方式,而非真正的在线 RL,尚未验证 LRM 在真实机器人闭环 RL 中的表现。
五、个人思考
5.1 与 ROBOMETER 的直接对比
LRM 和 ROBOMETER 是同期的两篇通用机器人奖励模型论文,设计哲学有显著差异:
| 维度 | ROBOMETER | LRM |
|---|---|---|
| 基础模型 | Qwen3-VL-4B | Qwen3-VL-8B |
| 训练方式 | 全参数微调,新增 token | LoRA 适配 |
| 核心创新 | 轨迹间偏好比较 + 失败数据利用 | 三维度帧级在线奖励 |
| 输入粒度 | 整条轨迹(8帧) | 单帧或帧对 |
| 主要用途 | 事后评估(离线 RL、数据过滤、失败检测) | 在线 RL 闭环驱动 |
| 评估环境 | 真实世界 6 OOD 场景 | ManiSkill3 仿真(零样本) |
两者的定位互补:ROBOMETER 更像一个"通用评审员",适合离线数据整理和评估;LRM 更像一个"实时教练",直接嵌入 RL 训练循环。但 ManiSkill3 上 LRM 的
5.2 三维度奖励的认知洞察
论文将奖励分解为"方向梯度 + 数值锚定 + 终端确认"三个维度,这与人类评估复杂任务的认知模式惊人地相似。有趣的是,最简单的二元信号
5.3 "涌现同步"的启示
论文发现的策略-奖励协同提升现象值得深思。这意味着 LRM 生成的奖励并非静态的——随着策略变好,LRM 看到的轨迹也更有规律,奖励信号反而更准确。这创造了一个正向循环,但也隐含了一个风险:如果初始策略太差,LRM 的奖励信号可能同样不可靠,导致负向循环。这可能解释了为什么论文选择从一个已经不错的 SFT 基线出发。
参考
- ROBOMETER (2026):同期通用奖励模型,轨迹间偏好比较,LRM 的主要对比基线
- RoboReward (2026):通用 VLM 奖励模型,离散 1-5 进度预测,LRM 的另一对比基线
- RL-VLM-F (2024):用 VLM 偏好学习代理奖励函数,LRM 的前驱工作
- GVL (2025):In-context 时序排序估计进度,LRM 的时序对比奖励与之有相似灵感
(2025):VLA 基础模型,LRM 所有策略实验的初始化来源