LRM：将 VLM 适配为在线帧级机器人奖励生成器

论文：Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models
作者：Yanru Wu, Weiduo Yuan, Ang Qi, Vitor Guizilini, Jiageng Mao†, Yue Wang†
机构：USC Physical Superintelligence Lab、Toyota Research Institute
发布时间：2026年3月
🔗 arXiv | 项目主页

一句话总结

将 Qwen3-VL-8B 通过 LoRA 适配为三种互补的帧级在线奖励生成器（时序对比、绝对进度、任务完成），在 24 个多源数据集上训练后零样本迁移到 ManiSkill3，仅 30 轮 PPO 即显著提升模仿学习策略性能，超越 RoboReward-8B 和 ROBOMETER-4B。

一、问题与动机

1.1 模仿学习的性能天花板

通过大规模预训练获得的通才机器人策略（如 $π_{0.5}$ ），在需要高精度控制或长程协调的任务中常常遭遇性能平台期。RL 可以突破这一瓶颈，但其效果严重依赖奖励函数的质量。

1.2 现有 VLM 奖励方法的两个范式及不足

论文将现有工作分为两类：

范式一：Episode 级事后评估（如 RoboReward、ROBOMETER）。 对整条视频轨迹打一个整体进度分或成功检测。虽然有效用于数据集整理，但这种延迟信号缺乏在线 RL 所需的时间分辨率——策略需要每一步都知道自己做得对不对，而不是等整个 episode 结束再回头评判。

范式二：交互式 VLM 反馈（如 RL-VLM-F）。 用 VLM 对观测对提供偏好来学习代理奖励函数。方向正确但未能充分发挥 VLM 的规模优势来生成即时、多维度的在线反馈。

1.3 LRM 的核心思路

关键定位：不是训练一个"事后评审员"，而是将 VLM 适配为一个在线奖励引擎——给定当前帧和任务描述，即时输出帧级奖励信号，直接驱动闭环 PPO 优化。

二、核心方法

2.1 从无标注视频中提取奖励监督

LRM 的训练数据来自 24 个多源数据集，覆盖三大领域：

领域	数据源	价值
真实机器人	Open X-Embodiment	多具身、多视角，学习具身无关的奖励信号
人类操作	HOI4D、EgoDex	精细操作标准，弥合机器人粗粒度运动与成功标准之间的差距
仿真环境	LIBERO、RoboCasa	应对 Real-to-Sim 域差距，学习对渲染和物理引擎鲁棒的奖励逻辑

时序进度采样： 对每条轨迹按归一化时间进度 $p \in {0.0, 0.1, 0.2, \dots, 1.0}$ 提取 11 个关键帧。利用成功轨迹的时序单调性假设（越晚的帧离完成越近），将视频时间线直接映射为进度标签，无需任何人工标注。

2.2 三维度奖励公式（Tri-faceted Reward）

LRM 的核心设计是将任务评估分解为三个独立训练、互补使用的奖励模态：

模态一：时序对比奖励 $r_{cont}$ （Temporal Contrastive Reward）

输入当前帧 $I_{t}$ 、前一帧 $I_{t - Δ t}$ 和任务描述 $d$ ，判断哪个状态更接近目标：

r_{cont} = {\begin{cases} + 1.0, & 若 I_{t} 比 I_{t - Δ t} 更接近目标 \\ - 1.0, & 若 I_{t - Δ t} 更接近目标 \\ 0.0, & 模糊不可判 \end{cases}

设计直觉： 相对比较天然缓解了绝对评分的校准问题——模型不需要精确判断"完成了百分之多少"，只需要判断"相比之前是进步还是退步"。这与 ROBOMETER 的偏好比较动机一致，但 LRM 在步级（frame-pair） 而非轨迹级（trajectory-pair） 操作。

训练方式：DPO（Direct Preference Optimization）。 将时序进度映射为偏好标签——后一帧总是"更好的"。模型在输出 $r_{cont}$ 之前先进行 Chain-of-Thought 推理，确保奖励基于可验证的物理交互（如物体位移），而非低层视觉噪声：

L_{DPO} (θ; π_{ref}) = - E [\log σ (β \log \frac{π_{θ} (y_{w} | I, d)}{π_{ref} (y_{w} | I, d)} - β \log \frac{π_{θ} (y_{l} | I, d)}{π_{ref} (y_{l} | I, d)})]

模态二：绝对进度奖励 $r_{prog}$ （Absolute Progress Reward）

输入当前帧 $I_{t}$ 、初始帧 $I_{0}$ （视觉锚点）和任务描述 $d$ ，回归一个归一化完成度：

r_{prog} \in {0.0, 0.1, 0.2, \dots, 1.0}

11 个离散进度等级提供了粗粒度但有序的数值反馈。

训练方式：SFT + CoT。 模型先输出推理过程，再给出进度值：

L_{prog} = - E [\log P (r_{prog}, CoT ∣ I, d)]

"推理先行"迫使模型在给分之前明确表述物理线索（如"机器手已经抓住了物体但尚未放到目标位置"），提升数值与场景的一致性。

模态三：任务完成奖励 $r_{comp}$ （Task Completion Reward）

输入当前帧 $I_{t}$ 和任务描述 $d$ ，二元分类判断任务的语义要求是否完全满足：

r_{comp} = {\begin{cases} 1, & 语义要求已满足 \\ 0, & 否则 \end{cases}

训练方式：直接 SFT（无 CoT），保持简洁的终端判断：

L_{comp} = - E [\log P (r_{comp} ∣ I, d)]

2.3 三种模态的设计逻辑

三种奖励互补，覆盖了策略优化的不同需求：

模态	类型	作用	类比
$r_{cont}$	相对/方向性	提供密集的"进步/退步"梯度	指南针
$r_{prog}$	绝对/数值性	提供精确的进度锚定	里程碑
$r_{comp}$	终端/二元性	锚定成功状态	终点线

2.4 在线策略精炼

基础策略： 从 $π_{0.5}$ SFT 微调得到的模仿学习策略 $π_{SFT}$ 出发。

Interval-Hold 策略： 为弥合 VLM 推理延迟与实时控制需求之间的鸿沟，LRM 每隔 $K$ 步查询一次，奖励缓存并保持 $K$ 步：

r_{t} = w_{m} \cdot r_{m}

其中 $m$ 是活跃的奖励模态， $w_{m}$ 是缩放因子。

PPO 优化： 使用 GAE（Generalized Advantage Estimation）计算优势函数：

{\hat{A}}_{t} = \sum_{l = 0}^{T - t - 1} (γ λ)^{l} δ_{t + l}, δ_{t} = r_{t} + γ V_{ψ} (I_{t + 1}) - V_{ψ} (I_{t})

其中 $δ_{t}$ 是基于 LRM 生成奖励 $r_{t}$ 的 TD 误差。

三、实验结果

3.1 LRM 内在质量评估

对比判别模型（ $r_{cont}$ ）：

模型	Kendall's $τ$	Spearman's $ρ$
Qwen3-VL（零样本）	0.257	0.257
LRM（微调）	0.296	0.296
提升	+15.3%	+15.3%

进度估计模型（ $r_{prog}$ ）：

指标	Qwen3-VL	LRM	变化
MAE	0.378	0.302	-20.0%
RMSE	0.490	0.395	-19.3%
Acc@$\pm$0.2	41.95%	50.58%	+8.63%

任务完成模型（ $r_{comp}$ ）： 微调后准确率 69.38% vs. 零样本 69.23%，提升微弱。论文指出 Qwen3-VL 本身已具备较强的语义目标识别零样本能力。

3.2 ManiSkill3 闭环策略精炼（零样本）

从 $π_{0.5}$ SFT 基线出发，在 320 个并行环境中做 30 轮 RL 迭代：

模型	成功率 (%)
$π_{0.5}$ SFT（基线）	56.88
+ RoboReward-8B	59.06
+ ROBOMETER-4B	56.56
+ $r_{cont}$ （LRM）	60.31
+ $r_{prog}$ （LRM）	60.00
+ $r_{comp}$ （LRM）	60.93
+ Env Reward（特权上界）	66.87

关键观察：

LRM 的三种模态均超越 RoboReward-8B（59.06%）和 ROBOMETER-4B（56.56%），验证了即时帧级奖励优于延迟 episode 级反馈的核心假设。
$r_{comp}$ （任务完成）表现最强（60.93%），尽管其内在质量提升最小——说明对在线 RL 而言，精确的终端信号比精确的过程估计更重要。
与特权 Env Reward（66.87%）的差距仍有 ~6%，说明纯视觉奖励在不可观测物理状态（如接触力）上仍有局限。

3.3 开环奖励质量分析

随着 RL 训练推进，LRM 奖励质量与策略性能协同提升：

指标	SFT → RL- $r_{comp}$	SFT → RL- $r_{prog}$
ROC-AUC	0.660 → 0.795	0.874 → 0.950
Pairwise Acc	45.4% → 63.9%	80.1% → 93.4%
Per-traj Pearson	0.257 → 0.331	0.577 → 0.671

论文将此现象称为 "涌现同步"（emergent synchronization）：随着策略内化 LRM 的物理先验，生成的轨迹具有更清晰的语义标记和更明确的物理转换，反过来让 LRM 的评估更准确。

3.4 真实世界验证

在 Franka FR3 上的 pick-and-place 任务（ $π_{0.5}$ 微调 + 60 次 rollout + $r_{comp}$ 过滤成功轨迹再 SFT）：

指标	SFT 基线	LRM 精炼
成功率	38.3% (23/60)	51.7% (31/60)

LRM 成功纠正了 SFT 基线将长颈鹿玩具放在碗旁而非碗内的错误。

四、局限性与未来方向

三种奖励未融合使用：论文分别评估了三种模态但未探索它们的组合（如加权求和或分阶段切换），这可能进一步提升性能。
Interval-Hold 的时间粒度：每 $K$ 步查询一次 VLM 并缓存奖励，可能在快速变化的场景中引入延迟。 $K$ 的选择与 VLM 推理速度形成权衡。
任务完成模型提升微弱：微调仅带来 0.15% 的准确率提升，暗示当前数据和训练策略可能不足以超越 VLM 的零样本能力，或者二元分类本身就是基础 VLM 的强项。
仅在仿真中做闭环 RL：真实世界实验用的是轨迹过滤 + SFT 的离线方式，而非真正的在线 RL，尚未验证 LRM 在真实机器人闭环 RL 中的表现。

五、个人思考

5.1 与 ROBOMETER 的直接对比

LRM 和 ROBOMETER 是同期的两篇通用机器人奖励模型论文，设计哲学有显著差异：

维度	ROBOMETER	LRM
基础模型	Qwen3-VL-4B	Qwen3-VL-8B
训练方式	全参数微调，新增 token	LoRA 适配
核心创新	轨迹间偏好比较 + 失败数据利用	三维度帧级在线奖励
输入粒度	整条轨迹（8帧）	单帧或帧对
主要用途	事后评估（离线 RL、数据过滤、失败检测）	在线 RL 闭环驱动
评估环境	真实世界 6 OOD 场景	ManiSkill3 仿真（零样本）

两者的定位互补：ROBOMETER 更像一个"通用评审员"，适合离线数据整理和评估；LRM 更像一个"实时教练"，直接嵌入 RL 训练循环。但 ManiSkill3 上 LRM 的 $r_{comp}$ （60.93%）超越 ROBOMETER-4B（56.56%），暗示帧级在线反馈确实比 episode 级事后评估更适合驱动策略优化。

5.2 三维度奖励的认知洞察

论文将奖励分解为"方向梯度 + 数值锚定 + 终端确认"三个维度，这与人类评估复杂任务的认知模式惊人地相似。有趣的是，最简单的二元信号 $r_{comp}$ 在闭环 RL 中表现最好。这可能暗示：对在线策略优化而言，简单但可靠的终端信号比复杂但嘈杂的过程信号更有价值——策略可以从明确的"完成/未完成"中更高效地学习。

5.3 "涌现同步"的启示

论文发现的策略-奖励协同提升现象值得深思。这意味着 LRM 生成的奖励并非静态的——随着策略变好，LRM 看到的轨迹也更有规律，奖励信号反而更准确。这创造了一个正向循环，但也隐含了一个风险：如果初始策略太差，LRM 的奖励信号可能同样不可靠，导致负向循环。这可能解释了为什么论文选择从一个已经不错的 SFT 基线出发。

参考

ROBOMETER (2026)：同期通用奖励模型，轨迹间偏好比较，LRM 的主要对比基线
RoboReward (2026)：通用 VLM 奖励模型，离散 1-5 进度预测，LRM 的另一对比基线
RL-VLM-F (2024)：用 VLM 偏好学习代理奖励函数，LRM 的前驱工作
GVL (2025)：In-context 时序排序估计进度，LRM 的时序对比奖励与之有相似灵感
$π_{0.5}$ (2025)：VLA 基础模型，LRM 所有策略实验的初始化来源

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

LRM：将 VLM 适配为在线帧级机器人奖励生成器 ​

一句话总结 ​

一、问题与动机 ​

1.1 模仿学习的性能天花板 ​

1.2 现有 VLM 奖励方法的两个范式及不足 ​

1.3 LRM 的核心思路 ​

二、核心方法 ​

2.1 从无标注视频中提取奖励监督 ​

2.2 三维度奖励公式（Tri-faceted Reward） ​

模态一：时序对比奖励 rcont（Temporal Contrastive Reward） ​

模态二：绝对进度奖励 rprog（Absolute Progress Reward） ​

模态三：任务完成奖励 rcomp（Task Completion Reward） ​

2.3 三种模态的设计逻辑 ​

2.4 在线策略精炼 ​

三、实验结果 ​

3.1 LRM 内在质量评估 ​

3.2 ManiSkill3 闭环策略精炼（零样本） ​

3.3 开环奖励质量分析 ​

3.4 真实世界验证 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 与 ROBOMETER 的直接对比 ​

5.2 三维度奖励的认知洞察 ​

5.3 "涌现同步"的启示 ​

参考 ​