Robo-Dopamine:面向高精度操作的通用过程奖励建模
论文:Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
作者:Huajie Tan*, Sixiang Chen*, Yijie Xu*(*共同一作), Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang†, Zhongyuan Wang, Shanghang Zhang
机构:北京大学、北京智源人工智能研究院、悉尼大学、中科院自动化所
发布时间:2025年12月
一句话总结
在 35M 多视角数据上训练步感知通用奖励模型 (GRM),通过 Hop-based 相对进度归一化 + 多视角进度融合提供精确密集奖励,配合策略不变奖励塑形 (PBRS) 的 Dopamine-RL 框架,仅需 1 条演示适配新任务、150 次在线交互即可从近零提升至 95% 成功率。
一、问题与动机
1.1 RL 奖励设计的两难困境
将 RL 应用于真实世界机器人的核心瓶颈是奖励函数设计:
- 稀疏二元奖励(任务完成 1,否则 0):在长时程、接触丰富的任务中使探索几乎不可能
- 手工密集奖励:需要大量领域专知,不可扩展
这推动了基于学习的过程奖励模型 (PRM) 的发展,但当前 PRM 面临两个根本限制:
1.2 现有 PRM 的两大缺陷
缺陷一:奖励模型本身不够准确。
- 任务特定设计限制了跨任务泛化
- 均匀奖励分配(如从 0 线性插值到 1)无法区分关键子步骤的重要性差异
- 单视角观测在操作场景中因遮挡而丢失关键进度信息(如手腕视角下可见但第三人称被手遮挡的精细操作)
缺陷二:奖励塑形存在理论缺陷——语义陷阱 (Semantic Trap)。
朴素的密集奖励定义
这将优化目标从"最大化进度变化"偷偷替换为"最大化进度状态的累积值"。结果是:智能体被激励到达一个高进度状态后停滞不前,而非完成任务——因为停留在高进度状态每步都能获得正奖励,而冒险尝试完成任务可能导致进度回退。
核心直觉:如果你在爬山(进度 0→1),进度差值奖励会激励你在接近山顶时就地不动(每步享受高进度值的折扣累积),而不是冒着可能滑倒(进度回退)的风险走完最后几步。
二、核心方法
Robo-Dopamine 由两个协同组件构成:Dopamine-Reward(奖励建模)和 Dopamine-RL(策略学习)。
2.1 Dopamine-Reward:通用奖励模型 (GRM) 构建
2.1.1 三阶段训练数据构建流水线
第一阶段:步级任务进度离散化。 给定多视角专家轨迹,通过人工标注的多视角关键帧
第二阶段:Hop-based 相对进度归一化。 这是 Dopamine-Reward 的核心创新。朴素方法是直接回归两状态间的进度差
- 前进时,进度变化相对于剩余距离归一化
- 后退时,进度变化相对于已走距离归一化
- 输出范围恒为
关键理论保证: 迭代应用预测的 hop 重建全局进度
直觉理解:hop 衡量的不是"走了多远",而是"走了剩余路程的百分之几"。如果你已经走了 80%,再前进的 hop=0.5 意味着走完了剩余 20% 的一半(到 90%),而不是走了 50%(到 130%,超出范围)。
第三阶段:采样策略与数据均衡。 将连续 hop 值离散化为
最终数据集:35M 样本,来自约 3,400 小时视频、100K+ 轨迹、350+ 日常操作任务,涵盖真实机器人、仿真和第一人称人类视频。
2.1.2 多视角进度融合 (Multi-Perspective Progress Fusion)
单一预测方式容易累积误差。论文从 GRM 中提取三种互补的进度估计:
增量预测(Incremental): 从前一时刻递推,捕捉局部动态,但长时程易漂移:
其中
前锚预测(Forward-Anchored): 以初始状态为锚点,提供稳定的全局参考:
后锚预测(Backward-Anchored): 以目标状态为锚点,对任务完成阶段特别敏感:
三者融合为最终估计:
2.1.3 进度一致性检查(可选,用于在线 RL)
在线 RL 中策略会探索 OOD 区域,GRM 可能产生虚高奖励导致 reward hacking。论文利用前锚和后锚预测的一致性作为可靠性代理:
当两者分歧大时(OOD 区域),置信权重
2.2 Dopamine-RL:策略学习框架
2.2.1 One-shot GRM 适配
预训练的 GRM 已具备广泛的进度评估先验。对新任务,仅需 1 条人类演示
2.2.2 策略不变奖励塑形 (Policy-Invariant Reward Shaping)
论文推导了满足三个条件的奖励塑形:
- 最优策略不变:shaped 奖励下的最优策略与稀疏金标准奖励相同
- 折扣一致:兼容标准 TD/Bellman 更新
- 局部可计算:仅依赖单步转移
从连续时间的折扣势函数
其中
其中
理论保证: 塑形项的折扣累积和形成伸缩级数,消掉所有中间项,仅剩与初始状态相关的常数边界项:
因此
与语义陷阱的对比:朴素进度差值
对应 的塑形,不满足折扣一致性,导致优化目标偏移。Dopamine-RL 的 中的 是关键——它使塑形项伸缩消除,精确匹配 PBRS 理论。
2.2.3 通用 RL 算法兼容性
Dopamine-RL 与任意 RL 算法兼容:仿真中验证了 PPO + OpenVLA-OFT 和 ReinFlow +
三、实验结果
3.1 模型细节
GRM 基于 Qwen2.5-VL 架构(RoboBrain 2.0),提供 3B 和 8B 两个版本。输入:任务描述 + 初始/目标状态的多视角图像 + BEFORE/AFTER 多视角图像对。输出:量化的相对进度 hop token。训练:128 × H100,3B 约 8 天,8B 约 14 天。
3.2 奖励准确性(RQ1)
视频帧排序相关性 (VOC)
| 数据集 | GVL | VLAC-2B | Ours-3B (单视角) | Ours-3B (多视角) | Ours-8B (单视角) | Ours-8B (多视角) |
|---|---|---|---|---|---|---|
| DROID (S/M/D) | 0.01/-0.30/0.07 | 0.66/0.69/0.50 | 0.96/0.95/0.94 | 0.99/0.98/0.97 | 0.97/0.96/0.95 | 0.99/0.99/0.98 |
| LIBERO (S/M/D) | 0.43/0.37/0.38 | 0.19/0.28/0.41 | 0.90/0.86/0.85 | 0.95/0.91/0.92 | 0.90/0.88/0.86 | 0.94/0.93/0.92 |
| 平均 (S/M/D) | 0.20/0.12/0.13 | 0.24/0.29/0.33 | 0.91/0.89/0.87 | 0.96/0.94/0.93 | 0.92/0.91/0.89 | 0.96/0.96/0.94 |
GRM 在 7 个数据集、3 种采样密度下全面领先。基线在密集采样时性能下降,而 GRM 保持稳定,证明 hop 公式和多视角融合的鲁棒性。
任务完成判断准确率
| 方法 | Stacking | Folding | Clearing | 平均 |
|---|---|---|---|---|
| Gemini-2.5-Pro | 50/60 | 45/60 | 51/60 | 81.1% |
| GPT-5 | 51/60 | 48/60 | 52/60 | 83.9% |
| GVL | 25/60 | 27/60 | 15/60 | 37.2% |
| VLAC-2B | 19/60 | 21/60 | 21/60 | 33.9% |
| GRM-8B (单视角) | 50/60 | 50/60 | 51/60 | 83.9% |
| GRM-8B (多视角) | 56/60 | 54/60 | 57/60 | 92.8% |
多视角 GRM 比 GPT-5 高 9%。单视角 PRM(GVL、VLAC)准确率不足 40%,因为遮挡导致进度曲线噪声过大。
3.3 策略性能与样本效率(RQ2)
| 方法 | 仿真 (10 任务) SR (%) | 仿真 Rollout (#) | 真实世界 (8 任务) SR (%) | 真实世界 Rollout (#) |
|---|---|---|---|---|
| BC (50 demos) | 31.5 | – | 9.8 | – |
| RL + 稀疏奖励 | 79.9 | 560 | 68.0 | 183 |
| Dopamine-RL | 81.0 | 395 | 95.2 | 150 |
真实世界 8 个任务上,Dopamine-RL 在约 1 小时的机器人交互中将成功率从近零提升至 95.2%。
3.4 泛化性能
| 条件 | Insert Square (BC/Ours) | Circuit (BC/Ours) | Cap Pen (BC/Ours) |
|---|---|---|---|
| 原始 (ID) | 7/20 vs 19/20 | 5/20 vs 20/20 | 8/20 vs 19/20 |
| OOD: 物体变化 | 4/20 vs 15/20 | 3/20 vs 17/20 | 5/20 vs 17/20 |
| OOD: 布局变化 | 2/20 vs 15/20 | 1/20 vs 19/20 | 3/20 vs 15/20 |
| OOD: 背景变化 | 3/20 vs 16/20 | 2/20 vs 19/20 | 4/20 vs 16/20 |
| 平均相对下降 ∆ | 57.1% vs 19.3% | 60.0% vs 8.3% | 50.0% vs 15.8% |
BC 在分布偏移下性能骤降 50–60%,而 Dopamine-RL 仅下降 8–20%。
3.5 消融实验(RQ3 & RQ4)
| 方法变体 | 成功率 | 相对完整框架 |
|---|---|---|
| 完整框架 (Dopamine-RL) | 85.0% | – |
| w/o 融合(仅增量) | 70.0 | -15.0 |
| w/o 融合(仅前锚) | 65.7 | -19.3 |
| w/o 融合(仅后锚) | 62.5 | -22.5 |
| w/o 策略不变塑形 | 41.3 | -43.7 |
| w/o One-shot 适配 | 63.2 | -21.8 |
两个关键发现:
- 去除策略不变奖励塑形导致成功率暴跌 43.7%,智能体学会了到达"足够好"的状态后就停滞——直接验证了语义陷阱的存在。
- 多视角融合中三种视角互补,移除任一种都导致 15–22.5% 的下降,增量预测在长时程尤其容易累积漂移。
四、局限性与未来方向
- GRM 推理延迟:VLM 前向传播的计算开销可能成为在线 RL 训练循环的瓶颈,需要量化/压缩加速。
- 离散帧对推理:当前 GRM 基于帧对比较,缺乏连续视频流的时序建模,无法捕捉惯性、速度等动态趋势。
- 仅视觉模态:精细操作(如插入任务)往往需要触觉和听觉反馈,纯视觉奖励模型在感知遮挡和接触力方面存在盲区。
- 高动态任务未验证:实验集中在桌面操作,抛接、移动操作等高动态场景尚未测试。
五、个人思考
5.1 与项目中其他论文的联系
与 ROBOMETER 的对比: ROBOMETER 和 Robo-Dopamine 都是通用机器人奖励模型,但设计哲学不同。Robo-Dopamine 的核心创新在于 hop-based 相对进度归一化和多视角融合,使进度预测数值稳定且对遮挡鲁棒。ROBOMETER 的核心创新在于引入轨迹间偏好比较作为辅助监督,能有效利用失败数据。ROBOMETER 的消融实验表明 RoboDopamine 在 VOC 上约为 0.13——这可能是因为 ROBOMETER 使用了不同的评估协议或数据集划分。两者在技术路线上互补:Robo-Dopamine 侧重"如何更准确地预测进度",ROBOMETER 侧重"如何更好地区分成败"。
与 RoboReward 的对比: RoboReward 通过反事实重标注合成负样本来训练 episode 级离散奖励(1-5 分),而 Robo-Dopamine 训练的是连续帧级进度预测(hop 值)。Robo-Dopamine 的粒度更细、信号更密集,但计算成本也更高(需要对每个转移做多视角推理)。Robo-Dopamine 的策略不变奖励塑形在理论上更严谨——它通过 PBRS 保证最优策略不变,而 RoboReward 直接用离散分数作为 RL 奖励,可能面临塑形偏差。
与 VLAC 的对比: VLAC 统一了 Actor 和 Critic 于同一个 VLM,用 pairwise progress delta 作为稠密奖励。Robo-Dopamine 将奖励模型与策略模型解耦——GRM 是独立的通用奖励模型,可以搭配任意 RL 算法和策略架构。VLAC 的 pairwise delta 本质上也是"进度差值"奖励,论文的语义陷阱分析理论上也适用于 VLAC。
与 LRM 的对比: LRM 同样训练通用帧级在线奖励模型(三维度:时序对比/绝对进度/完成度),使用 Qwen3-VL-8B LoRA。Robo-Dopamine 的 GRM 同样基于 VLM,但设计了更精细的 hop 公式来避免累积误差,以及理论上严谨的策略不变奖励塑形。LRM 强调零样本泛化,Robo-Dopamine 采用 one-shot 适配。
5.2 语义陷阱的理论价值
论文对语义陷阱的形式化分析(Section 3.2.2)是一个重要贡献。许多现有工作(包括 VLAC 的 pairwise progress delta)使用进度差值作为奖励,可能都暗含这个问题。通过引入
5.3 One-shot 适配的实用性
仅需 1 条演示就能适配新任务是 Robo-Dopamine 的重要实用优势。消融显示 zero-shot(不适配)会掉 21.8%,说明任务特定的微调仍然重要,但 1 条演示的成本极低。这种"大规模预训练 + 极低成本适配"的范式与 LLM/VLM 的使用方式一致。
参考
- ROBOMETER (2026):轨迹比较 + 帧级进度的双目标通用奖励模型,在 ROBOMETER 的评测中 Robo-Dopamine 作为基线
- RoboReward (2026):反事实重标注 + 时序裁剪训练 episode 级通用奖励模型
- VLAC (2025):统一 Actor-Critic VLM,pairwise progress delta 稠密奖励
- LRM (2026):三维度帧级在线奖励模型,Qwen3-VL LoRA,零样本驱动 PPO
- GVL (2025):用闭源 LLM 零样本预测任务进度作为奖励
- Ng et al. (1999):策略不变奖励塑形 (PBRS) 理论的奠基工作
- ConRFT (2025):一致性策略 + Cal-QL 离线到在线 RL,Dopamine-RL 真实世界实验的对比基线
- π₀ / π₀.₅ (2024/2025):VLA 基础模型,Dopamine-RL 仿真实验中使用
策略