Skip to content

ReWiND:语言引导的奖励函数让机器人无需新演示即可学习新任务

论文:ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

作者:Jiahui Zhang*, Yusen Luo*, Abrar Anwar* 等(* 共同一作)

机构:University of Southern California、Amazon Robotics、KAIST

发布时间:2025年5月(CoRL 2025 Oral

🔗 arXiv | 项目主页

分类标签:奖励模型 语言条件化 小样本 RL 零演示泛化


一句话总结

从少量演示中训练一个基于视频进度预测的语言条件化奖励模型(结合 Video Rewind 数据增强、Open-X 多样化数据和仅首帧位置编码),无需目标任务演示即可通过语言指令引导在线 RL 学习新任务,仿真中 IQM 成功率达 79%(超基线 2×),真实世界双臂机器人 1 小时 RL 后成功率提升 5×。


一、问题与动机

1.1 核心困境:每个新任务都需要新的"教师"

当前教机器人做新任务主要有两条路:

  • 模仿学习:为每个新任务收集人类演示。效果好,但采集成本极高——想教机器人"关门"和"开门"各需要一批新演示
  • 强化学习:设计奖励函数让机器人自己探索。不需要演示,但手工设计奖励函数同样需要大量领域知识和工程量

理想情况是:只用自然语言告诉机器人"请关上这扇门",它就能自主学会。这要求一个从语言到奖励的映射——一个能理解任意语言指令并给出密集反馈的通用奖励模型。

1.2 现有语言条件化奖励方法的局限

已有方法尝试用预训练模型生成语言条件化奖励,但存在以下问题:

方法类别代表工作核心局限
LLM 生成代码奖励Eureka、Language2Reward依赖 ground-truth 状态信息,真实世界难以获取
预训练视觉模型LIV、RoboCLIP单帧奖励无法捕捉时序进展,泛化能力有限
视频-语言微调VLC需要大量演示和失败数据,排序目标不够稳定
VLM 零样本推理GVL(Gemini)推理速度慢,无法在线使用

1.3 ReWiND 的核心思路

ReWiND(Rewards Without New Demonstrations)的核心洞察是:一个好的奖励模型需要同时满足三个性质:

  • D1 泛化性:能为从未见过的任务提供准确反馈
  • D2 策略对齐性:不仅对成功演示,对失败的策略 rollout 也能给出合理奖励
  • D3 输入鲁棒性:对同一任务的不同语言表述保持一致

ReWiND 用一组精心设计的选择(数据、架构、增强)来同时满足这三个目标。


二、核心方法

ReWiND 分三个阶段:(a) 训练奖励模型,(b) 离线预训练策略,(c) 在线学习新任务。

2.1 奖励模型:基于视频进度的预测

符号约定:

  • o1:T:长度为 T 的观测帧序列
  • z:自然语言任务指令
  • Rψ(o1:t,z):奖励模型,输入前 t 帧和指令,输出第 t 步的奖励值

核心训练目标——进度预测(Progress Prediction):

给定一个成功演示视频 o1:T 和对应指令 z,让奖励模型预测每一帧的归一化进度 t/T

Lprogress(o1:T,z,o1:Tother)=t=1T(Rψ(o1:t,z)tT)2+t=1TRψ(o1:tother,z)2

第一项是匹配项:视频与指令对应时,奖励应线性增长到 1。第二项是不匹配项:随机采样一个不相关视频 o1:Tother,奖励应为 0。

为什么选择进度预测而非排序目标? 相比 VLC 等使用的相对排序损失,固定的进度目标 t/T 提供了更稳定的训练信号,并且天然输出 [0,1] 归一化的密集奖励,可直接用于策略训练。

2.2 Video Rewind:自动生成失败轨迹(解决 D2)

这是 ReWiND 最关键的创新之一。

问题:训练数据中只有成功演示。如果奖励模型只见过"进度一直上升"的视频,部署时遇到"进度先升后降"的失败轨迹,它很可能仍然给出高奖励——因为它从未学过"下降"是什么样子。

解决方案——视频倒放(Video Rewind): 在成功演示视频中随机选一个分割点 i,从该点开始倒放 k 帧,模拟"机器人在进展到一半后失败回退"的场景:

Lrewind(o1:T,z)=t=1i(Rψ(o1:t,z)tT)2+t=1k(Rψ([o1:i,oi1:it],z)itT)2

逐项解读:

  • i 帧保持正常:进度从 1/T 线性增长到 i/T
  • 从第 i 帧开始倒放 k 帧:进度从 i/T 下降(ik)/T

直觉理解: 考虑一个"拿起杯子"的视频。在机器人刚抓住杯子时倒放几帧,就变成了"差点抓住但又放开了"的失败轨迹。这种方式:

  • 零成本生成失败数据(无需额外采集)
  • 教会奖励模型识别"进度下降"并给出递减奖励
  • 适用于任意已有演示数据集(包括 Open-X)

2.3 多样化数据与语言增强(解决 D1 和 D3)

Open-X 数据子集(D1, D3): 从 Open-X 数据集中精心筛选约 356k 条轨迹(59k 种任务描述),选择具有以下特征的数据:

  • 以物体为中心的指令(如"pick coke can from fridge")
  • 方向性指令(如"drag the circle to the left of the star")

这帮助奖励模型泛化到目标环境中未见过的物体和空间关系。

LLM 指令增强(D3): 用 LLM 为每个训练任务生成 5-10 条语义等价但措辞不同的指令。训练时随机采样。例如:

  • 原始:"close the door" → 生成:"shut the door", "push the door closed", ...

2.4 架构设计(解决 D1)

冻结预训练编码器:

  • 图像编码:DINOv2(86M 参数,768 维嵌入)——强物体中心表征
  • 语言编码:all-MiniLM-L12-v2(384 维嵌入)——轻量高效

冻结编码器的核心考量:Ddemos 非常小(每任务仅约 5 条演示),微调编码器反而会损害泛化。

跨模态序列聚合器(Cross-Modal Sequential Aggregator): 一个因果掩码的 Transformer(4 层,8 头,隐层 2048),将语言嵌入和图像嵌入序列融合后,通过 MLP 逐帧输出奖励。

仅首帧位置编码——一个关键技巧: 如果给每一帧都加位置编码,模型可以"作弊"——直接从位置编码推断进度,而忽略视觉内容。ReWiND 只给第一帧加位置编码,迫使模型必须理解视觉语义变化才能预测进度。

2.5 最终训练目标

minψE(o1:T,z,o1:Tother)Ddemos,Dopen-x[Lprogress(o1:T,z,o1:Tother)+Lrewind(o1:T,z)]

每个 batch 中 80% 来自 Dopen-x,20% 来自 Ddemos;每条视频有 80% 概率应用 Video Rewind,20% 概率作为不匹配负样本。

2.6 策略学习

离线预训练: 用训练好的 RψDdemos 标注奖励,加上成功奖励 bonus:

r^toff=Rψ(o1:t,z)+rsuccess1[t=T]

然后用 IQL(Implicit Q-Learning)离线训练语言条件化策略 πθ(at|ot,z)

在线学习新任务: 给定新任务指令 znew,策略通过在线交互收集数据,由冻结的 Rψ(o1:t,znew) 提供奖励,用 SAC 微调。

算法流程:

  1. Ddemos + Dopen-x 训练奖励模型 Rψ(含 Video Rewind 和指令增强)
  2. Rψ 标注 Ddemos 的奖励,IQL 离线预训练策略 πθ
  3. 给定新任务指令 znew,执行 πθ 收集在线 rollout,Rψ(o1:t,znew) 提供奖励,SAC 在线微调

三、实验结果

3.1 奖励模型评估(Q1)

在 MetaWorld 上用 20 个训练任务(每任务 5 条演示)训练,在 17 个未见任务上评估。

泛化性——混淆矩阵分析: ReWiND 在未见任务的视频-语言混淆矩阵中产生最清晰的对角线,表明它能正确区分不同任务。

演示奖励对齐:

指标LIVLIV-FTRoboCLIPVLCGVLReWiND w/o OXEReWiND
Pearson r-0.030.550.010.640.520.670.83
Spearman ρ-0.040.55-0.010.620.570.640.79

ReWiND 相对最佳基线 VLC 有 30% 的 r 相对提升和 27% 的 ρ 相对提升

策略 Rollout 奖励排序(核心指标):

指标LIVLIV-FTRoboCLIPVLCGVLReWiND w/o OXEReWiND
排序 ρ-0.320.470.00-0.180.320.760.82
奖励差 ↑-0.160.260.06-0.150.170.390.41

这个指标衡量奖励模型能否正确区分失败/接近成功/成功三种策略 rollout。ReWiND 相对最佳基线 LIV-FT 有 74% 的排序改进和 58% 的奖励差改进——Video Rewind 的直接贡献。

输入鲁棒性:

指标LIVLIV-FTRoboCLIPVLCGVLReWiND w/o OXEReWiND
平均 ρ0.030.270.000.600.580.550.74
ρ 方差 ↓0.080.280.000.000.010.030.04

对同一任务的 4 种不同语言表述,ReWiND 保持最高平均相关性(0.74,比 VLC 高 23%)且方差极低。

3.2 策略学习(Q2)

MetaWorld 仿真(8 个未见任务,100k 步在线 RL):

方法IQM 成功率
Pre-train(零样本)~5%
Sparse(仅稀疏奖励)~2%
LIV-FT~25%
VLC~40%
ReWiND79%

ReWiND 的 IQM 成功率是 VLC 的近 。稀疏奖励微调后反而比预训练零样本更差,表明单靠探索在有限数据下是灾难性的。

真实世界双臂机器人(Koch v1.1,5 个任务,1 小时在线 RL):

任务变体VLC 预训练VLC 微调后ReWiND 预训练ReWiND 微调后
分杯子(分布内)40%20%50%100%
叠毛巾(分布内难)0%0%0%10%
开垃圾桶(视觉杂乱)0%3%50%70%
放杯子到盘子(空间关系)0%0%0%50%
放水果色物体进盒子(语言泛化)0%0%0%70%
平均8%10%12%68%

ReWiND 将预训练策略从平均 12% 提升到 68%,提升 。VLC 仅从 8% 提升到 10%。

3.3 消融实验(Q3)

模型变体演示对齐 ρ排序 ρ奖励差鲁棒 ρ策略成功率(归一化)
完整 ReWiND0.790.820.410.741.00
− 目标环境数据0.770.180.080.78
− Open-X 数据0.640.760.390.55
− Video Rewind0.690.560.270.660.67
− 指令增强0.660.620.300.52
+ 全帧位置编码0.850.710.330.780.69

关键发现:

  1. 去掉 Video Rewind:排序 ρ 从 0.82 暴跌至 0.56,策略成功率下降 33%——这是最关键的组件
  2. 去掉目标环境数据:排序 ρ 从 0.82 降到 0.18——奖励模型完全无法区分不同质量的 rollout
  3. 使用全帧位置编码:演示对齐看似提升(0.85 vs 0.79),但排序变差(0.71 vs 0.82),策略成功率下降 21%——模型学会了从位置编码"作弊"推断进度
  4. 去掉指令增强:鲁棒性 ρ 从 0.74 降到 0.52,ρ 方差从 0.04 升到 0.07

训练任务数量的影响:

训练任务数排序 ρ(归一化)鲁棒 ρ(归一化)策略成功率(归一化)
50.760.860.52
100.900.880.47
20(完整)1.001.001.00

即使只有 5 个训练任务,奖励模型仍然表现不错(排序 ρ 保留 76%),但策略成功率明显下降。


四、局限性与未来方向

4.1 冻结编码器的双刃剑

ReWiND 冻结 DINOv2 和 MiniLM 编码器以防止小数据集过拟合。但这也意味着奖励模型无法适应预训练模型未覆盖的视觉场景——例如双臂协作操作(Open-X 中几乎没有双臂数据)和特定相机视角下的遮挡问题。论文中展示了一个失败案例:Koch 双臂擦盘子任务,奖励完全不对齐。

4.2 成功检测的依赖

ReWiND 在离线和在线 RL 中都使用了 rsuccess 奖励 bonus。这要求一个可靠的成功检测器(目前由人工提供)。虽然可以对 Rψ 的输出设阈值,但不同任务的奖励范围差异较大,简单阈值不可靠。

4.3 环境重置

当前仍需人工重置环境,限制了真正自主学习的规模。

4.4 初始策略质量

论文发现初始零样本性能与最终 RL 微调效果强相关——如果预训练策略已经"自信地做错事",KL 约束下的在线 RL 难以纠正。与更强的预训练策略(如 VLA 基础模型)结合是重要方向。


五、个人思考

5.1 与同类奖励模型工作的定位关系

ReWiND 在这个笔记项目中有几个密切相关的论文值得对比:

方法奖励信号来源是否需要微调输入模态适用阶段
ReWiND视频进度预测是(小样本)视频帧序列 + 语言在线 RL
ROBOMETER帧级进度 + 轨迹偏好单帧 + 语言在线 RL
RoboRewardVLM episode 级评分是(LoRA)视频 + 语言离线/在线 RL
Robo-Dopamine步感知 GRM多视角帧在线 RL
RISE世界模型想象 + TD 价值多视角帧 + 语言想象空间 RL

ReWiND 的独特之处在于极致的数据效率——每个任务仅 5 条演示即可训练出泛化到新任务的奖励模型。Video Rewind 技巧巧妙地解决了"只有成功数据但需要识别失败"的鸡生蛋问题。

5.2 Video Rewind 的深层洞察

Video Rewind 表面上是一个简单的数据增强技巧,但它体现了一个深刻的观察:在机器人操作中,大部分失败模式就是"做对了一半然后回退"。抓空了 = 靠近目标 + 远离目标;放歪了 = 对准 + 偏移。这意味着时间反转是一个合理的失败模拟器。

这个思路和 RISE 中进度估计 + TD 学习的双损失设计有异曲同工之处:两者都在用不同方式教奖励/价值模型识别"进度下降"。

5.3 进度预测 vs 排序 vs 偏好

ReWiND 选择了固定的进度回归目标 t/T,而非 VLC 的排序目标或 ROBOMETER 的偏好比较目标。这个选择有两面性:

  • 优势:目标稳定,输出天然归一化,训练简单
  • 劣势:假设进度与时间步线性相关——但实际上抓取动作可能在最后几帧内完成大部分"进度跳跃"

RISE 的解决方案是用进度估计打基础 + TD 学习捕捉非线性成败信号。ReWiND 则用 Video Rewind 增强来弥补线性假设的不足。两种方案各有优劣。

5.4 仅首帧位置编码的启示

这是一个很有教育意义的设计选择。消融实验表明全帧位置编码让演示对齐指标"提升"(0.85 vs 0.79),但策略实际成功率下降 21%。这是因为模型通过位置编码"作弊"预测进度,在面对策略 rollout 时奖励仍然单调递增——即使策略在失败。评估指标要选对,否则会被误导。

5.5 可扩展性思考

ReWiND 的训练极为轻量(MetaWorld 仅 2k 步,真实世界 10k 步),但受限于冻结编码器的泛化上限。未来结合更强的机器人视觉基础模型(如 Octo、RT-2 的视觉编码器),并在此基础上做适度微调,可能打破这个上限。


参考

  • VLC(Alakuijala et al., TMLR 2025):视频-语言 Critic,用序列排序目标训练奖励模型——ReWiND 的核心对比基线
  • LIV(Ma et al., ICML 2023):基于 EpicKitchens 预训练的机器人奖励模型
  • GVL(Ma et al., ICLR 2025):用 Gemini LLM 零样本预测帧级进度
  • RoboCLIP(Sontakke et al., NeurIPS 2023):用 S3D 视频-语言模型做零样本奖励
  • IQL(Kostrikov et al., ICLR 2022):隐式 Q 学习,ReWiND 离线 RL 的算法选择
  • Open-X(Collaboration, ICRA 2024):大规模多机器人开源数据集,ReWiND 的多样化数据来源
  • π₀.₆*(Physical Intelligence, 2025):RECAP 优势条件化离线 RL 框架