Skip to content

Robo-Dopamine:面向高精度操作的通用过程奖励建模

论文Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

作者:Huajie Tan*, Sixiang Chen*, Yijie Xu*(*共同一作), Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang†, Zhongyuan Wang, Shanghang Zhang

机构:北京大学、北京智源人工智能研究院、悉尼大学、中科院自动化所

发布时间:2025年12月

🔗 arXiv | 项目主页


一句话总结

在 35M 多视角数据上训练步感知通用奖励模型 (GRM),通过 Hop-based 相对进度归一化 + 多视角进度融合提供精确密集奖励,配合策略不变奖励塑形 (PBRS) 的 Dopamine-RL 框架,仅需 1 条演示适配新任务、150 次在线交互即可从近零提升至 95% 成功率。


一、问题与动机

1.1 RL 奖励设计的两难困境

将 RL 应用于真实世界机器人的核心瓶颈是奖励函数设计:

  • 稀疏二元奖励(任务完成 1,否则 0):在长时程、接触丰富的任务中使探索几乎不可能
  • 手工密集奖励:需要大量领域专知,不可扩展

这推动了基于学习的过程奖励模型 (PRM) 的发展,但当前 PRM 面临两个根本限制:

1.2 现有 PRM 的两大缺陷

缺陷一:奖励模型本身不够准确。

  • 任务特定设计限制了跨任务泛化
  • 均匀奖励分配(如从 0 线性插值到 1)无法区分关键子步骤的重要性差异
  • 单视角观测在操作场景中因遮挡而丢失关键进度信息(如手腕视角下可见但第三人称被手遮挡的精细操作)

缺陷二:奖励塑形存在理论缺陷——语义陷阱 (Semantic Trap)。

朴素的密集奖励定义 r(st,at,st+1)=Φ(st+1)Φ(st)(进度差值)看似合理,但论文证明优化此奖励的折扣回报等价于:

J(π)Eπ[t=1γt1Φ(st)s0]

这将优化目标从"最大化进度变化"偷偷替换为"最大化进度状态的累积值"。结果是:智能体被激励到达一个高进度状态后停滞不前,而非完成任务——因为停留在高进度状态每步都能获得正奖励,而冒险尝试完成任务可能导致进度回退。

核心直觉:如果你在爬山(进度 0→1),进度差值奖励会激励你在接近山顶时就地不动(每步享受高进度值的折扣累积),而不是冒着可能滑倒(进度回退)的风险走完最后几步。


二、核心方法

Robo-Dopamine 由两个协同组件构成:Dopamine-Reward(奖励建模)和 Dopamine-RL(策略学习)。

2.1 Dopamine-Reward:通用奖励模型 (GRM) 构建

2.1.1 三阶段训练数据构建流水线

第一阶段:步级任务进度离散化。 给定多视角专家轨迹,通过人工标注的多视角关键帧 {K0,K1,,KN} 将轨迹分割为 N 个子任务段。在每个段内自适应采样,得到状态序列 S={s0,s1,,sM},定义全局进度 Φ(si)=i/M

第二阶段:Hop-based 相对进度归一化。 这是 Dopamine-Reward 的核心创新。朴素方法是直接回归两状态间的进度差 Φδ(sp,sq)=Φ(sq)Φ(sp),但迭代累积会使重建的 Φ(s) 超出 [0,1] 范围。论文提出相对-相对进度(hop)公式:

H(sp,sq)={Φ(sq)Φ(sp)Φ(sM)Φ(sp)if qp (前进)Φ(sq)Φ(sp)Φ(sp)Φ(s0)if q<p (后退)
  • 前进时,进度变化相对于剩余距离归一化
  • 后退时,进度变化相对于已走距离归一化
  • 输出范围恒为 [1,1]

关键理论保证: 迭代应用预测的 hop 重建全局进度 Φ(s) 时,结果严格保持在 [0,1] 内(论文给出了数学归纳法证明)。

直觉理解:hop 衡量的不是"走了多远",而是"走了剩余路程的百分之几"。如果你已经走了 80%,再前进的 hop=0.5 意味着走完了剩余 20% 的一半(到 90%),而不是走了 50%(到 130%,超出范围)。

第三阶段:采样策略与数据均衡。 将连续 hop 值离散化为 Nhop 个 bin,并在每个 bin 内按 Ndis 个时间距离采样,确保训练样本覆盖各种进度跳跃幅度。额外注入 α=5% 的零 hop 样本(|Φ(sq)Φ(sp)|ϵ),教会模型"视觉相似 = 零进度"。

最终数据集:35M 样本,来自约 3,400 小时视频、100K+ 轨迹350+ 日常操作任务,涵盖真实机器人、仿真和第一人称人类视频。

2.1.2 多视角进度融合 (Multi-Perspective Progress Fusion)

单一预测方式容易累积误差。论文从 GRM 中提取三种互补的进度估计:

增量预测(Incremental): 从前一时刻递推,捕捉局部动态,但长时程易漂移:

ΦI(st)=Φ(st1)+ΔΦt1,t

其中 ΔΦt1,t=[1Φ(st1)]H(前进时)或 Φ(st1)H(后退时)。

前锚预测(Forward-Anchored): 以初始状态为锚点,提供稳定的全局参考:

ΦF(st)=H(sinit,st)

后锚预测(Backward-Anchored): 以目标状态为锚点,对任务完成阶段特别敏感:

ΦB(st)=1+H(sgoal,st)

三者融合为最终估计:

Φ(st)=13(ΦI(st)+ΦF(st)+ΦB(st))

2.1.3 进度一致性检查(可选,用于在线 RL)

在线 RL 中策略会探索 OOD 区域,GRM 可能产生虚高奖励导致 reward hacking。论文利用前锚和后锚预测的一致性作为可靠性代理:

Δnorm(st)=|ΦB(st)ΦF(st)|Φ¯(st)+ϵ

当两者分歧大时(OOD 区域),置信权重 wt=exp(αΔnorm2) 接近 0,更新被抑制;一致时 wt1,完全信任。

2.2 Dopamine-RL:策略学习框架

2.2.1 One-shot GRM 适配

预训练的 GRM 已具备广泛的进度评估先验。对新任务,仅需 1 条人类演示 Dhuman,通过 MSE 微调:

LGRM(ω)=E(sp,sq)DhumanHωHgt22

2.2.2 策略不变奖励塑形 (Policy-Invariant Reward Shaping)

论文推导了满足三个条件的奖励塑形:

  1. 最优策略不变:shaped 奖励下的最优策略与稀疏金标准奖励相同
  2. 折扣一致:兼容标准 TD/Bellman 更新
  3. 局部可计算:仅依赖单步转移 (st,at,st+1)

从连续时间的折扣势函数 eλtΦ(st) 出发,推导离散时间塑形项:

F(st,st+1)=γΦ(st+1)Φ(st)

其中 γ=eλh。最终奖励函数:

rGRM(st,at,st+1)=rgold+γΦ(st+1)Φ(st)

其中 rgold 在进度达到 1δδ=0.05)时自动触发为 1。

理论保证: 塑形项的折扣累积和形成伸缩级数,消掉所有中间项,仅剩与初始状态相关的常数边界项:

t=0γt(γΦ(st+1)Φ(st))=Φ(s0)

因此 QGRMπ(s,a)=Qgoldπ(s,a)Φ(s),所有动作的 Q 值被相同常数平移,最优动作不变。

与语义陷阱的对比:朴素进度差值 Φ(st+1)Φ(st) 对应 γ=1 的塑形,不满足折扣一致性,导致优化目标偏移。Dopamine-RL 的 γΦ(st+1)Φ(st) 中的 γ<1 是关键——它使塑形项伸缩消除,精确匹配 PBRS 理论。

2.2.3 通用 RL 算法兼容性

Dopamine-RL 与任意 RL 算法兼容:仿真中验证了 PPO + OpenVLA-OFT 和 ReinFlow + π0;真实世界中使用 Cal-QL(离线到在线 Q-learning)。


三、实验结果

3.1 模型细节

GRM 基于 Qwen2.5-VL 架构(RoboBrain 2.0),提供 3B 和 8B 两个版本。输入:任务描述 + 初始/目标状态的多视角图像 + BEFORE/AFTER 多视角图像对。输出:量化的相对进度 hop token。训练:128 × H100,3B 约 8 天,8B 约 14 天。

3.2 奖励准确性(RQ1)

视频帧排序相关性 (VOC)

数据集GVLVLAC-2BOurs-3B (单视角)Ours-3B (多视角)Ours-8B (单视角)Ours-8B (多视角)
DROID (S/M/D)0.01/-0.30/0.070.66/0.69/0.500.96/0.95/0.940.99/0.98/0.970.97/0.96/0.950.99/0.99/0.98
LIBERO (S/M/D)0.43/0.37/0.380.19/0.28/0.410.90/0.86/0.850.95/0.91/0.920.90/0.88/0.860.94/0.93/0.92
平均 (S/M/D)0.20/0.12/0.130.24/0.29/0.330.91/0.89/0.870.96/0.94/0.930.92/0.91/0.890.96/0.96/0.94

GRM 在 7 个数据集、3 种采样密度下全面领先。基线在密集采样时性能下降,而 GRM 保持稳定,证明 hop 公式和多视角融合的鲁棒性。

任务完成判断准确率

方法StackingFoldingClearing平均
Gemini-2.5-Pro50/6045/6051/6081.1%
GPT-551/6048/6052/6083.9%
GVL25/6027/6015/6037.2%
VLAC-2B19/6021/6021/6033.9%
GRM-8B (单视角)50/6050/6051/6083.9%
GRM-8B (多视角)56/6054/6057/6092.8%

多视角 GRM 比 GPT-5 高 9%。单视角 PRM(GVL、VLAC)准确率不足 40%,因为遮挡导致进度曲线噪声过大。

3.3 策略性能与样本效率(RQ2)

方法仿真 (10 任务) SR (%)仿真 Rollout (#)真实世界 (8 任务) SR (%)真实世界 Rollout (#)
BC (50 demos)31.59.8
RL + 稀疏奖励79.956068.0183
Dopamine-RL81.039595.2150

真实世界 8 个任务上,Dopamine-RL 在约 1 小时的机器人交互中将成功率从近零提升至 95.2%

3.4 泛化性能

条件Insert Square (BC/Ours)Circuit (BC/Ours)Cap Pen (BC/Ours)
原始 (ID)7/20 vs 19/205/20 vs 20/208/20 vs 19/20
OOD: 物体变化4/20 vs 15/203/20 vs 17/205/20 vs 17/20
OOD: 布局变化2/20 vs 15/201/20 vs 19/203/20 vs 15/20
OOD: 背景变化3/20 vs 16/202/20 vs 19/204/20 vs 16/20
平均相对下降 ∆57.1% vs 19.3%60.0% vs 8.3%50.0% vs 15.8%

BC 在分布偏移下性能骤降 50–60%,而 Dopamine-RL 仅下降 8–20%。

3.5 消融实验(RQ3 & RQ4)

方法变体成功率相对完整框架
完整框架 (Dopamine-RL)85.0%
w/o 融合(仅增量)70.0-15.0
w/o 融合(仅前锚)65.7-19.3
w/o 融合(仅后锚)62.5-22.5
w/o 策略不变塑形41.3-43.7
w/o One-shot 适配63.2-21.8

两个关键发现:

  1. 去除策略不变奖励塑形导致成功率暴跌 43.7%,智能体学会了到达"足够好"的状态后就停滞——直接验证了语义陷阱的存在。
  2. 多视角融合中三种视角互补,移除任一种都导致 15–22.5% 的下降,增量预测在长时程尤其容易累积漂移。

四、局限性与未来方向

  1. GRM 推理延迟:VLM 前向传播的计算开销可能成为在线 RL 训练循环的瓶颈,需要量化/压缩加速。
  2. 离散帧对推理:当前 GRM 基于帧对比较,缺乏连续视频流的时序建模,无法捕捉惯性、速度等动态趋势。
  3. 仅视觉模态:精细操作(如插入任务)往往需要触觉和听觉反馈,纯视觉奖励模型在感知遮挡和接触力方面存在盲区。
  4. 高动态任务未验证:实验集中在桌面操作,抛接、移动操作等高动态场景尚未测试。

五、个人思考

5.1 与项目中其他论文的联系

与 ROBOMETER 的对比: ROBOMETER 和 Robo-Dopamine 都是通用机器人奖励模型,但设计哲学不同。Robo-Dopamine 的核心创新在于 hop-based 相对进度归一化和多视角融合,使进度预测数值稳定且对遮挡鲁棒。ROBOMETER 的核心创新在于引入轨迹间偏好比较作为辅助监督,能有效利用失败数据。ROBOMETER 的消融实验表明 RoboDopamine 在 VOC 上约为 0.13——这可能是因为 ROBOMETER 使用了不同的评估协议或数据集划分。两者在技术路线上互补:Robo-Dopamine 侧重"如何更准确地预测进度",ROBOMETER 侧重"如何更好地区分成败"。

与 RoboReward 的对比: RoboReward 通过反事实重标注合成负样本来训练 episode 级离散奖励(1-5 分),而 Robo-Dopamine 训练的是连续帧级进度预测(hop 值)。Robo-Dopamine 的粒度更细、信号更密集,但计算成本也更高(需要对每个转移做多视角推理)。Robo-Dopamine 的策略不变奖励塑形在理论上更严谨——它通过 PBRS 保证最优策略不变,而 RoboReward 直接用离散分数作为 RL 奖励,可能面临塑形偏差。

与 VLAC 的对比: VLAC 统一了 Actor 和 Critic 于同一个 VLM,用 pairwise progress delta 作为稠密奖励。Robo-Dopamine 将奖励模型与策略模型解耦——GRM 是独立的通用奖励模型,可以搭配任意 RL 算法和策略架构。VLAC 的 pairwise delta 本质上也是"进度差值"奖励,论文的语义陷阱分析理论上也适用于 VLAC。

与 LRM 的对比: LRM 同样训练通用帧级在线奖励模型(三维度:时序对比/绝对进度/完成度),使用 Qwen3-VL-8B LoRA。Robo-Dopamine 的 GRM 同样基于 VLM,但设计了更精细的 hop 公式来避免累积误差,以及理论上严谨的策略不变奖励塑形。LRM 强调零样本泛化,Robo-Dopamine 采用 one-shot 适配。

5.2 语义陷阱的理论价值

论文对语义陷阱的形式化分析(Section 3.2.2)是一个重要贡献。许多现有工作(包括 VLAC 的 pairwise progress delta)使用进度差值作为奖励,可能都暗含这个问题。通过引入 γΦ(st+1)Φ(st)(注意 γ 乘在下一状态的进度上),塑形项精确匹配 PBRS 理论中的势函数差,是一个优雅的修正。

5.3 One-shot 适配的实用性

仅需 1 条演示就能适配新任务是 Robo-Dopamine 的重要实用优势。消融显示 zero-shot(不适配)会掉 21.8%,说明任务特定的微调仍然重要,但 1 条演示的成本极低。这种"大规模预训练 + 极低成本适配"的范式与 LLM/VLM 的使用方式一致。


参考

  • ROBOMETER (2026):轨迹比较 + 帧级进度的双目标通用奖励模型,在 ROBOMETER 的评测中 Robo-Dopamine 作为基线
  • RoboReward (2026):反事实重标注 + 时序裁剪训练 episode 级通用奖励模型
  • VLAC (2025):统一 Actor-Critic VLM,pairwise progress delta 稠密奖励
  • LRM (2026):三维度帧级在线奖励模型,Qwen3-VL LoRA,零样本驱动 PPO
  • GVL (2025):用闭源 LLM 零样本预测任务进度作为奖励
  • Ng et al. (1999):策略不变奖励塑形 (PBRS) 理论的奠基工作
  • ConRFT (2025):一致性策略 + Cal-QL 离线到在线 RL,Dopamine-RL 真实世界实验的对比基线
  • π₀ / π₀.₅ (2024/2025):VLA 基础模型,Dopamine-RL 仿真实验中使用 π0 策略