Robo-Dopamine：面向高精度操作的通用过程奖励建模

论文：Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
作者：Huajie Tan*, Sixiang Chen*, Yijie Xu*（*共同一作）, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang†, Zhongyuan Wang, Shanghang Zhang
机构：北京大学、北京智源人工智能研究院、悉尼大学、中科院自动化所
发布时间：2025年12月
🔗 arXiv | 项目主页

一句话总结

在 35M 多视角数据上训练步感知通用奖励模型 (GRM)，通过 Hop-based 相对进度归一化 + 多视角进度融合提供精确密集奖励，配合策略不变奖励塑形 (PBRS) 的 Dopamine-RL 框架，仅需 1 条演示适配新任务、150 次在线交互即可从近零提升至 95% 成功率。

一、问题与动机

1.1 RL 奖励设计的两难困境

将 RL 应用于真实世界机器人的核心瓶颈是奖励函数设计：

稀疏二元奖励（任务完成 1，否则 0）：在长时程、接触丰富的任务中使探索几乎不可能
手工密集奖励：需要大量领域专知，不可扩展

这推动了基于学习的过程奖励模型 (PRM) 的发展，但当前 PRM 面临两个根本限制：

1.2 现有 PRM 的两大缺陷

缺陷一：奖励模型本身不够准确。

任务特定设计限制了跨任务泛化
均匀奖励分配（如从 0 线性插值到 1）无法区分关键子步骤的重要性差异
单视角观测在操作场景中因遮挡而丢失关键进度信息（如手腕视角下可见但第三人称被手遮挡的精细操作）

缺陷二：奖励塑形存在理论缺陷——语义陷阱 (Semantic Trap)。

朴素的密集奖励定义 $r (s_{t}, a_{t}, s_{t + 1}) = Φ (s_{t + 1}) - Φ (s_{t})$ （进度差值）看似合理，但论文证明优化此奖励的折扣回报等价于：

J^{'} (π) \propto E_{π} [\sum_{t = 1}^{\infty} γ^{t - 1} Φ (s_{t}) ∣ s_{0}]

这将优化目标从"最大化进度变化"偷偷替换为"最大化进度状态的累积值"。结果是：智能体被激励到达一个高进度状态后停滞不前，而非完成任务——因为停留在高进度状态每步都能获得正奖励，而冒险尝试完成任务可能导致进度回退。

核心直觉：如果你在爬山（进度 0→1），进度差值奖励会激励你在接近山顶时就地不动（每步享受高进度值的折扣累积），而不是冒着可能滑倒（进度回退）的风险走完最后几步。

二、核心方法

Robo-Dopamine 由两个协同组件构成：Dopamine-Reward（奖励建模）和 Dopamine-RL（策略学习）。

2.1 Dopamine-Reward：通用奖励模型 (GRM) 构建

2.1.1 三阶段训练数据构建流水线

第一阶段：步级任务进度离散化。 给定多视角专家轨迹，通过人工标注的多视角关键帧 ${K_{0}, K_{1}, \dots, K_{N}}$ 将轨迹分割为 $N$ 个子任务段。在每个段内自适应采样，得到状态序列 $S = {s_{0}, s_{1}, \dots, s_{M}}$ ，定义全局进度 $Φ (s_{i}) = i / M$ 。

第二阶段：Hop-based 相对进度归一化。 这是 Dopamine-Reward 的核心创新。朴素方法是直接回归两状态间的进度差 $Φ_{δ} (s_{p}, s_{q}) = Φ (s_{q}) - Φ (s_{p})$ ，但迭代累积会使重建的 $Φ^{*} (s)$ 超出 $[0, 1]$ 范围。论文提出相对-相对进度（hop）公式：

H (s_{p}, s_{q}) = {\begin{cases} \frac{Φ (s_{q}) - Φ (s_{p})}{Φ (s_{M}) - Φ (s_{p})} & if q \geq p (前进) \\ \frac{Φ (s_{q}) - Φ (s_{p})}{Φ (s_{p}) - Φ (s_{0})} & if q < p (后退) \end{cases}

前进时，进度变化相对于剩余距离归一化
后退时，进度变化相对于已走距离归一化
输出范围恒为 $[- 1, 1]$

关键理论保证： 迭代应用预测的 hop 重建全局进度 $Φ^{*} (s)$ 时，结果严格保持在 $[0, 1]$ 内（论文给出了数学归纳法证明）。

直觉理解：hop 衡量的不是"走了多远"，而是"走了剩余路程的百分之几"。如果你已经走了 80%，再前进的 hop=0.5 意味着走完了剩余 20% 的一半（到 90%），而不是走了 50%（到 130%，超出范围）。

第三阶段：采样策略与数据均衡。 将连续 hop 值离散化为 $N_{hop}$ 个 bin，并在每个 bin 内按 $N_{dis}$ 个时间距离采样，确保训练样本覆盖各种进度跳跃幅度。额外注入 $α = 5 %$ 的零 hop 样本（ $| Φ (s_{q}) - Φ (s_{p}) | \leq ϵ$ ），教会模型"视觉相似 = 零进度"。

最终数据集：35M 样本，来自约 3,400 小时视频、100K+ 轨迹、350+ 日常操作任务，涵盖真实机器人、仿真和第一人称人类视频。

2.1.2 多视角进度融合 (Multi-Perspective Progress Fusion)

单一预测方式容易累积误差。论文从 GRM 中提取三种互补的进度估计：

增量预测（Incremental）： 从前一时刻递推，捕捉局部动态，但长时程易漂移：

Φ_{I}^{*} (s_{t}) = Φ^{*} (s_{t - 1}) + Δ Φ_{t - 1, t}^{*}

其中 $Δ Φ_{t - 1, t}^{*} = [1 - Φ^{*} (s_{t - 1})] \cdot H^{*}$ （前进时）或 $Φ^{*} (s_{t - 1}) \cdot H^{*}$ （后退时）。

前锚预测（Forward-Anchored）： 以初始状态为锚点，提供稳定的全局参考：

Φ_{F}^{*} (s_{t}) = H^{*} (s_{init}, s_{t})

后锚预测（Backward-Anchored）： 以目标状态为锚点，对任务完成阶段特别敏感：

Φ_{B}^{*} (s_{t}) = 1 + H^{*} (s_{goal}, s_{t})

三者融合为最终估计：

Φ^{*} (s_{t}) = \frac{1}{3} (Φ_{I}^{*} (s_{t}) + Φ_{F}^{*} (s_{t}) + Φ_{B}^{*} (s_{t}))

2.1.3 进度一致性检查（可选，用于在线 RL）

在线 RL 中策略会探索 OOD 区域，GRM 可能产生虚高奖励导致 reward hacking。论文利用前锚和后锚预测的一致性作为可靠性代理：

Δ_{norm} (s_{t}) = \frac{| Φ_{B}^{*} (s_{t}) - Φ_{F}^{*} (s_{t}) |}{{\bar{Φ}}^{*} (s_{t}) + ϵ}

当两者分歧大时（OOD 区域），置信权重 $w_{t} = \exp (- α \cdot Δ_{norm}^{2})$ 接近 0，更新被抑制；一致时 $w_{t} \to 1$ ，完全信任。

2.2 Dopamine-RL：策略学习框架

2.2.1 One-shot GRM 适配

预训练的 GRM 已具备广泛的进度评估先验。对新任务，仅需 1 条人类演示 $D_{human}$ ，通过 MSE 微调：

L_{GRM} (ω) = E_{(s_{p}, s_{q}) \sim D_{human}} ∥ H_{ω}^{*} - H_{gt} ∥_{2}^{2}

2.2.2 策略不变奖励塑形 (Policy-Invariant Reward Shaping)

论文推导了满足三个条件的奖励塑形：

最优策略不变：shaped 奖励下的最优策略与稀疏金标准奖励相同
折扣一致：兼容标准 TD/Bellman 更新
局部可计算：仅依赖单步转移 $(s_{t}, a_{t}, s_{t + 1})$

从连续时间的折扣势函数 $e^{- λ t} Φ^{*} (s_{t})$ 出发，推导离散时间塑形项：

F (s_{t}, s_{t + 1}) = γ Φ^{*} (s_{t + 1}) - Φ^{*} (s_{t})

其中 $γ = e^{- λ h}$ 。最终奖励函数：

r_{GRM} (s_{t}, a_{t}, s_{t + 1}) = r_{gold} + γ Φ^{*} (s_{t + 1}) - Φ^{*} (s_{t})

其中 $r_{gold}$ 在进度达到 $1 - δ$ （ $δ = 0.05$ ）时自动触发为 1。

理论保证： 塑形项的折扣累积和形成伸缩级数，消掉所有中间项，仅剩与初始状态相关的常数边界项：

\sum_{t = 0}^{\infty} γ^{t} (γ Φ^{*} (s_{t + 1}) - Φ^{*} (s_{t})) = - Φ^{*} (s_{0})

因此 $Q_{GRM}^{π} (s, a) = Q_{gold}^{π} (s, a) - Φ^{*} (s)$ ，所有动作的 Q 值被相同常数平移，最优动作不变。

与语义陷阱的对比：朴素进度差值 $Φ (s_{t + 1}) - Φ (s_{t})$ 对应 $γ = 1$ 的塑形，不满足折扣一致性，导致优化目标偏移。Dopamine-RL 的 $γ Φ (s_{t + 1}) - Φ (s_{t})$ 中的 $γ < 1$ 是关键——它使塑形项伸缩消除，精确匹配 PBRS 理论。

2.2.3 通用 RL 算法兼容性

Dopamine-RL 与任意 RL 算法兼容：仿真中验证了 PPO + OpenVLA-OFT 和 ReinFlow + $π_{0}$ ；真实世界中使用 Cal-QL（离线到在线 Q-learning）。

三、实验结果

3.1 模型细节

GRM 基于 Qwen2.5-VL 架构（RoboBrain 2.0），提供 3B 和 8B 两个版本。输入：任务描述 + 初始/目标状态的多视角图像 + BEFORE/AFTER 多视角图像对。输出：量化的相对进度 hop token。训练：128 × H100，3B 约 8 天，8B 约 14 天。

3.2 奖励准确性（RQ1）

视频帧排序相关性 (VOC)

数据集	GVL	VLAC-2B	Ours-3B (单视角)	Ours-3B (多视角)	Ours-8B (单视角)	Ours-8B (多视角)
DROID (S/M/D)	0.01/-0.30/0.07	0.66/0.69/0.50	0.96/0.95/0.94	0.99/0.98/0.97	0.97/0.96/0.95	0.99/0.99/0.98
LIBERO (S/M/D)	0.43/0.37/0.38	0.19/0.28/0.41	0.90/0.86/0.85	0.95/0.91/0.92	0.90/0.88/0.86	0.94/0.93/0.92
平均 (S/M/D)	0.20/0.12/0.13	0.24/0.29/0.33	0.91/0.89/0.87	0.96/0.94/0.93	0.92/0.91/0.89	0.96/0.96/0.94

GRM 在 7 个数据集、3 种采样密度下全面领先。基线在密集采样时性能下降，而 GRM 保持稳定，证明 hop 公式和多视角融合的鲁棒性。

任务完成判断准确率

方法	Stacking	Folding	Clearing	平均
Gemini-2.5-Pro	50/60	45/60	51/60	81.1%
GPT-5	51/60	48/60	52/60	83.9%
GVL	25/60	27/60	15/60	37.2%
VLAC-2B	19/60	21/60	21/60	33.9%
GRM-8B (单视角)	50/60	50/60	51/60	83.9%
GRM-8B (多视角)	56/60	54/60	57/60	92.8%

多视角 GRM 比 GPT-5 高 9%。单视角 PRM（GVL、VLAC）准确率不足 40%，因为遮挡导致进度曲线噪声过大。

3.3 策略性能与样本效率（RQ2）

方法	仿真 (10 任务) SR (%)	仿真 Rollout (#)	真实世界 (8 任务) SR (%)	真实世界 Rollout (#)
BC (50 demos)	31.5	–	9.8	–
RL + 稀疏奖励	79.9	560	68.0	183
Dopamine-RL	81.0	395	95.2	150

真实世界 8 个任务上，Dopamine-RL 在约 1 小时的机器人交互中将成功率从近零提升至 95.2%。

3.4 泛化性能

条件	Insert Square (BC/Ours)	Circuit (BC/Ours)	Cap Pen (BC/Ours)
原始 (ID)	7/20 vs 19/20	5/20 vs 20/20	8/20 vs 19/20
OOD: 物体变化	4/20 vs 15/20	3/20 vs 17/20	5/20 vs 17/20
OOD: 布局变化	2/20 vs 15/20	1/20 vs 19/20	3/20 vs 15/20
OOD: 背景变化	3/20 vs 16/20	2/20 vs 19/20	4/20 vs 16/20
平均相对下降 ∆	57.1% vs 19.3%	60.0% vs 8.3%	50.0% vs 15.8%

BC 在分布偏移下性能骤降 50–60%，而 Dopamine-RL 仅下降 8–20%。

3.5 消融实验（RQ3 & RQ4）

方法变体	成功率	相对完整框架
完整框架 (Dopamine-RL)	85.0%	–
w/o 融合（仅增量）	70.0	-15.0
w/o 融合（仅前锚）	65.7	-19.3
w/o 融合（仅后锚）	62.5	-22.5
w/o 策略不变塑形	41.3	-43.7
w/o One-shot 适配	63.2	-21.8

两个关键发现：

去除策略不变奖励塑形导致成功率暴跌 43.7%，智能体学会了到达"足够好"的状态后就停滞——直接验证了语义陷阱的存在。
多视角融合中三种视角互补，移除任一种都导致 15–22.5% 的下降，增量预测在长时程尤其容易累积漂移。

四、局限性与未来方向

GRM 推理延迟：VLM 前向传播的计算开销可能成为在线 RL 训练循环的瓶颈，需要量化/压缩加速。
离散帧对推理：当前 GRM 基于帧对比较，缺乏连续视频流的时序建模，无法捕捉惯性、速度等动态趋势。
仅视觉模态：精细操作（如插入任务）往往需要触觉和听觉反馈，纯视觉奖励模型在感知遮挡和接触力方面存在盲区。
高动态任务未验证：实验集中在桌面操作，抛接、移动操作等高动态场景尚未测试。

五、个人思考

5.1 与项目中其他论文的联系

与 ROBOMETER 的对比： ROBOMETER 和 Robo-Dopamine 都是通用机器人奖励模型，但设计哲学不同。Robo-Dopamine 的核心创新在于 hop-based 相对进度归一化和多视角融合，使进度预测数值稳定且对遮挡鲁棒。ROBOMETER 的核心创新在于引入轨迹间偏好比较作为辅助监督，能有效利用失败数据。ROBOMETER 的消融实验表明 RoboDopamine 在 VOC 上约为 0.13——这可能是因为 ROBOMETER 使用了不同的评估协议或数据集划分。两者在技术路线上互补：Robo-Dopamine 侧重"如何更准确地预测进度"，ROBOMETER 侧重"如何更好地区分成败"。

与 RoboReward 的对比： RoboReward 通过反事实重标注合成负样本来训练 episode 级离散奖励（1-5 分），而 Robo-Dopamine 训练的是连续帧级进度预测（hop 值）。Robo-Dopamine 的粒度更细、信号更密集，但计算成本也更高（需要对每个转移做多视角推理）。Robo-Dopamine 的策略不变奖励塑形在理论上更严谨——它通过 PBRS 保证最优策略不变，而 RoboReward 直接用离散分数作为 RL 奖励，可能面临塑形偏差。

与 VLAC 的对比： VLAC 统一了 Actor 和 Critic 于同一个 VLM，用 pairwise progress delta 作为稠密奖励。Robo-Dopamine 将奖励模型与策略模型解耦——GRM 是独立的通用奖励模型，可以搭配任意 RL 算法和策略架构。VLAC 的 pairwise delta 本质上也是"进度差值"奖励，论文的语义陷阱分析理论上也适用于 VLAC。

与 LRM 的对比： LRM 同样训练通用帧级在线奖励模型（三维度：时序对比/绝对进度/完成度），使用 Qwen3-VL-8B LoRA。Robo-Dopamine 的 GRM 同样基于 VLM，但设计了更精细的 hop 公式来避免累积误差，以及理论上严谨的策略不变奖励塑形。LRM 强调零样本泛化，Robo-Dopamine 采用 one-shot 适配。

5.2 语义陷阱的理论价值

论文对语义陷阱的形式化分析（Section 3.2.2）是一个重要贡献。许多现有工作（包括 VLAC 的 pairwise progress delta）使用进度差值作为奖励，可能都暗含这个问题。通过引入 $γ Φ (s_{t + 1}) - Φ (s_{t})$ （注意 $γ$ 乘在下一状态的进度上），塑形项精确匹配 PBRS 理论中的势函数差，是一个优雅的修正。

5.3 One-shot 适配的实用性

仅需 1 条演示就能适配新任务是 Robo-Dopamine 的重要实用优势。消融显示 zero-shot（不适配）会掉 21.8%，说明任务特定的微调仍然重要，但 1 条演示的成本极低。这种"大规模预训练 + 极低成本适配"的范式与 LLM/VLM 的使用方式一致。

参考

ROBOMETER (2026)：轨迹比较 + 帧级进度的双目标通用奖励模型，在 ROBOMETER 的评测中 Robo-Dopamine 作为基线
RoboReward (2026)：反事实重标注 + 时序裁剪训练 episode 级通用奖励模型
VLAC (2025)：统一 Actor-Critic VLM，pairwise progress delta 稠密奖励
LRM (2026)：三维度帧级在线奖励模型，Qwen3-VL LoRA，零样本驱动 PPO
GVL (2025)：用闭源 LLM 零样本预测任务进度作为奖励
Ng et al. (1999)：策略不变奖励塑形 (PBRS) 理论的奠基工作
ConRFT (2025)：一致性策略 + Cal-QL 离线到在线 RL，Dopamine-RL 真实世界实验的对比基线
π₀ / π₀.₅ (2024/2025)：VLA 基础模型，Dopamine-RL 仿真实验中使用 $π_{0}$ 策略

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

Robo-Dopamine：面向高精度操作的通用过程奖励建模 ​

一句话总结 ​

一、问题与动机 ​

1.1 RL 奖励设计的两难困境 ​

1.2 现有 PRM 的两大缺陷 ​

二、核心方法 ​

2.1 Dopamine-Reward：通用奖励模型 (GRM) 构建 ​

2.1.1 三阶段训练数据构建流水线 ​

2.1.2 多视角进度融合 (Multi-Perspective Progress Fusion) ​

2.1.3 进度一致性检查（可选，用于在线 RL） ​

2.2 Dopamine-RL：策略学习框架 ​

2.2.1 One-shot GRM 适配 ​

2.2.2 策略不变奖励塑形 (Policy-Invariant Reward Shaping) ​

2.2.3 通用 RL 算法兼容性 ​

三、实验结果 ​

3.1 模型细节 ​

3.2 奖励准确性（RQ1） ​

视频帧排序相关性 (VOC) ​

任务完成判断准确率 ​

3.3 策略性能与样本效率（RQ2） ​

3.4 泛化性能 ​

3.5 消融实验（RQ3 & RQ4） ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 与项目中其他论文的联系 ​

5.2 语义陷阱的理论价值 ​

5.3 One-shot 适配的实用性 ​

参考 ​