ReWiND:语言引导的奖励函数让机器人无需新演示即可学习新任务
论文:ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations
作者:Jiahui Zhang*, Yusen Luo*, Abrar Anwar* 等(* 共同一作)
机构:University of Southern California、Amazon Robotics、KAIST
发布时间:2025年5月(CoRL 2025 Oral)
分类标签:
奖励模型语言条件化小样本 RL零演示泛化
一句话总结
从少量演示中训练一个基于视频进度预测的语言条件化奖励模型(结合 Video Rewind 数据增强、Open-X 多样化数据和仅首帧位置编码),无需目标任务演示即可通过语言指令引导在线 RL 学习新任务,仿真中 IQM 成功率达 79%(超基线 2×),真实世界双臂机器人 1 小时 RL 后成功率提升 5×。
一、问题与动机
1.1 核心困境:每个新任务都需要新的"教师"
当前教机器人做新任务主要有两条路:
- 模仿学习:为每个新任务收集人类演示。效果好,但采集成本极高——想教机器人"关门"和"开门"各需要一批新演示
- 强化学习:设计奖励函数让机器人自己探索。不需要演示,但手工设计奖励函数同样需要大量领域知识和工程量
理想情况是:只用自然语言告诉机器人"请关上这扇门",它就能自主学会。这要求一个从语言到奖励的映射——一个能理解任意语言指令并给出密集反馈的通用奖励模型。
1.2 现有语言条件化奖励方法的局限
已有方法尝试用预训练模型生成语言条件化奖励,但存在以下问题:
| 方法类别 | 代表工作 | 核心局限 |
|---|---|---|
| LLM 生成代码奖励 | Eureka、Language2Reward | 依赖 ground-truth 状态信息,真实世界难以获取 |
| 预训练视觉模型 | LIV、RoboCLIP | 单帧奖励无法捕捉时序进展,泛化能力有限 |
| 视频-语言微调 | VLC | 需要大量演示和失败数据,排序目标不够稳定 |
| VLM 零样本推理 | GVL(Gemini) | 推理速度慢,无法在线使用 |
1.3 ReWiND 的核心思路
ReWiND(Rewards Without New Demonstrations)的核心洞察是:一个好的奖励模型需要同时满足三个性质:
- D1 泛化性:能为从未见过的任务提供准确反馈
- D2 策略对齐性:不仅对成功演示,对失败的策略 rollout 也能给出合理奖励
- D3 输入鲁棒性:对同一任务的不同语言表述保持一致
ReWiND 用一组精心设计的选择(数据、架构、增强)来同时满足这三个目标。
二、核心方法
ReWiND 分三个阶段:(a) 训练奖励模型,(b) 离线预训练策略,(c) 在线学习新任务。
2.1 奖励模型:基于视频进度的预测
符号约定:
:长度为 的观测帧序列 :自然语言任务指令 :奖励模型,输入前 帧和指令,输出第 步的奖励值
核心训练目标——进度预测(Progress Prediction):
给定一个成功演示视频
第一项是匹配项:视频与指令对应时,奖励应线性增长到 1。第二项是不匹配项:随机采样一个不相关视频
为什么选择进度预测而非排序目标? 相比 VLC 等使用的相对排序损失,固定的进度目标
2.2 Video Rewind:自动生成失败轨迹(解决 D2)
这是 ReWiND 最关键的创新之一。
问题:训练数据中只有成功演示。如果奖励模型只见过"进度一直上升"的视频,部署时遇到"进度先升后降"的失败轨迹,它很可能仍然给出高奖励——因为它从未学过"下降"是什么样子。
解决方案——视频倒放(Video Rewind): 在成功演示视频中随机选一个分割点
逐项解读:
- 前
帧保持正常:进度从 线性增长到 - 从第
帧开始倒放 帧:进度从 下降到
直觉理解: 考虑一个"拿起杯子"的视频。在机器人刚抓住杯子时倒放几帧,就变成了"差点抓住但又放开了"的失败轨迹。这种方式:
- 零成本生成失败数据(无需额外采集)
- 教会奖励模型识别"进度下降"并给出递减奖励
- 适用于任意已有演示数据集(包括 Open-X)
2.3 多样化数据与语言增强(解决 D1 和 D3)
Open-X 数据子集(D1, D3): 从 Open-X 数据集中精心筛选约 356k 条轨迹(59k 种任务描述),选择具有以下特征的数据:
- 以物体为中心的指令(如"pick coke can from fridge")
- 方向性指令(如"drag the circle to the left of the star")
这帮助奖励模型泛化到目标环境中未见过的物体和空间关系。
LLM 指令增强(D3): 用 LLM 为每个训练任务生成 5-10 条语义等价但措辞不同的指令。训练时随机采样。例如:
- 原始:
"close the door"→ 生成:"shut the door","push the door closed", ...
2.4 架构设计(解决 D1)
冻结预训练编码器:
- 图像编码:DINOv2(86M 参数,768 维嵌入)——强物体中心表征
- 语言编码:all-MiniLM-L12-v2(384 维嵌入)——轻量高效
冻结编码器的核心考量:
跨模态序列聚合器(Cross-Modal Sequential Aggregator): 一个因果掩码的 Transformer(4 层,8 头,隐层 2048),将语言嵌入和图像嵌入序列融合后,通过 MLP 逐帧输出奖励。
仅首帧位置编码——一个关键技巧: 如果给每一帧都加位置编码,模型可以"作弊"——直接从位置编码推断进度,而忽略视觉内容。ReWiND 只给第一帧加位置编码,迫使模型必须理解视觉语义变化才能预测进度。
2.5 最终训练目标
每个 batch 中 80% 来自
2.6 策略学习
离线预训练: 用训练好的
然后用 IQL(Implicit Q-Learning)离线训练语言条件化策略
在线学习新任务: 给定新任务指令
算法流程:
- 用
+ 训练奖励模型 (含 Video Rewind 和指令增强) - 用
标注 的奖励,IQL 离线预训练策略 - 给定新任务指令
,执行 收集在线 rollout, 提供奖励,SAC 在线微调
三、实验结果
3.1 奖励模型评估(Q1)
在 MetaWorld 上用 20 个训练任务(每任务 5 条演示)训练,在 17 个未见任务上评估。
泛化性——混淆矩阵分析: ReWiND 在未见任务的视频-语言混淆矩阵中产生最清晰的对角线,表明它能正确区分不同任务。
演示奖励对齐:
| 指标 | LIV | LIV-FT | RoboCLIP | VLC | GVL | ReWiND w/o OXE | ReWiND |
|---|---|---|---|---|---|---|---|
| Pearson | -0.03 | 0.55 | 0.01 | 0.64 | 0.52 | 0.67 | 0.83 |
| Spearman | -0.04 | 0.55 | -0.01 | 0.62 | 0.57 | 0.64 | 0.79 |
ReWiND 相对最佳基线 VLC 有 30% 的
策略 Rollout 奖励排序(核心指标):
| 指标 | LIV | LIV-FT | RoboCLIP | VLC | GVL | ReWiND w/o OXE | ReWiND |
|---|---|---|---|---|---|---|---|
| 排序 | -0.32 | 0.47 | 0.00 | -0.18 | 0.32 | 0.76 | 0.82 |
| 奖励差 ↑ | -0.16 | 0.26 | 0.06 | -0.15 | 0.17 | 0.39 | 0.41 |
这个指标衡量奖励模型能否正确区分失败/接近成功/成功三种策略 rollout。ReWiND 相对最佳基线 LIV-FT 有 74% 的排序改进和 58% 的奖励差改进——Video Rewind 的直接贡献。
输入鲁棒性:
| 指标 | LIV | LIV-FT | RoboCLIP | VLC | GVL | ReWiND w/o OXE | ReWiND |
|---|---|---|---|---|---|---|---|
| 平均 | 0.03 | 0.27 | 0.00 | 0.60 | 0.58 | 0.55 | 0.74 |
| 0.08 | 0.28 | 0.00 | 0.00 | 0.01 | 0.03 | 0.04 |
对同一任务的 4 种不同语言表述,ReWiND 保持最高平均相关性(0.74,比 VLC 高 23%)且方差极低。
3.2 策略学习(Q2)
MetaWorld 仿真(8 个未见任务,100k 步在线 RL):
| 方法 | IQM 成功率 |
|---|---|
| Pre-train(零样本) | ~5% |
| Sparse(仅稀疏奖励) | ~2% |
| LIV-FT | ~25% |
| VLC | ~40% |
| ReWiND | 79% |
ReWiND 的 IQM 成功率是 VLC 的近 2×。稀疏奖励微调后反而比预训练零样本更差,表明单靠探索在有限数据下是灾难性的。
真实世界双臂机器人(Koch v1.1,5 个任务,1 小时在线 RL):
| 任务变体 | VLC 预训练 | VLC 微调后 | ReWiND 预训练 | ReWiND 微调后 |
|---|---|---|---|---|
| 分杯子(分布内) | 40% | 20% | 50% | 100% |
| 叠毛巾(分布内难) | 0% | 0% | 0% | 10% |
| 开垃圾桶(视觉杂乱) | 0% | 3% | 50% | 70% |
| 放杯子到盘子(空间关系) | 0% | 0% | 0% | 50% |
| 放水果色物体进盒子(语言泛化) | 0% | 0% | 0% | 70% |
| 平均 | 8% | 10% | 12% | 68% |
ReWiND 将预训练策略从平均 12% 提升到 68%,提升 5×。VLC 仅从 8% 提升到 10%。
3.3 消融实验(Q3)
| 模型变体 | 演示对齐 | 排序 | 奖励差 | 鲁棒 | 策略成功率(归一化) |
|---|---|---|---|---|---|
| 完整 ReWiND | 0.79 | 0.82 | 0.41 | 0.74 | 1.00 |
| − 目标环境数据 | 0.77 | 0.18 | 0.08 | 0.78 | — |
| − Open-X 数据 | 0.64 | 0.76 | 0.39 | 0.55 | — |
| − Video Rewind | 0.69 | 0.56 | 0.27 | 0.66 | 0.67 |
| − 指令增强 | 0.66 | 0.62 | 0.30 | 0.52 | — |
| + 全帧位置编码 | 0.85 | 0.71 | 0.33 | 0.78 | 0.69 |
关键发现:
- 去掉 Video Rewind:排序
从 0.82 暴跌至 0.56,策略成功率下降 33%——这是最关键的组件 - 去掉目标环境数据:排序
从 0.82 降到 0.18——奖励模型完全无法区分不同质量的 rollout - 使用全帧位置编码:演示对齐看似提升(0.85 vs 0.79),但排序变差(0.71 vs 0.82),策略成功率下降 21%——模型学会了从位置编码"作弊"推断进度
- 去掉指令增强:鲁棒性
从 0.74 降到 0.52, 方差从 0.04 升到 0.07
训练任务数量的影响:
| 训练任务数 | 排序 | 鲁棒 | 策略成功率(归一化) |
|---|---|---|---|
| 5 | 0.76 | 0.86 | 0.52 |
| 10 | 0.90 | 0.88 | 0.47 |
| 20(完整) | 1.00 | 1.00 | 1.00 |
即使只有 5 个训练任务,奖励模型仍然表现不错(排序
四、局限性与未来方向
4.1 冻结编码器的双刃剑
ReWiND 冻结 DINOv2 和 MiniLM 编码器以防止小数据集过拟合。但这也意味着奖励模型无法适应预训练模型未覆盖的视觉场景——例如双臂协作操作(Open-X 中几乎没有双臂数据)和特定相机视角下的遮挡问题。论文中展示了一个失败案例:Koch 双臂擦盘子任务,奖励完全不对齐。
4.2 成功检测的依赖
ReWiND 在离线和在线 RL 中都使用了
4.3 环境重置
当前仍需人工重置环境,限制了真正自主学习的规模。
4.4 初始策略质量
论文发现初始零样本性能与最终 RL 微调效果强相关——如果预训练策略已经"自信地做错事",KL 约束下的在线 RL 难以纠正。与更强的预训练策略(如 VLA 基础模型)结合是重要方向。
五、个人思考
5.1 与同类奖励模型工作的定位关系
ReWiND 在这个笔记项目中有几个密切相关的论文值得对比:
| 方法 | 奖励信号来源 | 是否需要微调 | 输入模态 | 适用阶段 |
|---|---|---|---|---|
| ReWiND | 视频进度预测 | 是(小样本) | 视频帧序列 + 语言 | 在线 RL |
| ROBOMETER | 帧级进度 + 轨迹偏好 | 是 | 单帧 + 语言 | 在线 RL |
| RoboReward | VLM episode 级评分 | 是(LoRA) | 视频 + 语言 | 离线/在线 RL |
| Robo-Dopamine | 步感知 GRM | 是 | 多视角帧 | 在线 RL |
| RISE | 世界模型想象 + TD 价值 | 是 | 多视角帧 + 语言 | 想象空间 RL |
ReWiND 的独特之处在于极致的数据效率——每个任务仅 5 条演示即可训练出泛化到新任务的奖励模型。Video Rewind 技巧巧妙地解决了"只有成功数据但需要识别失败"的鸡生蛋问题。
5.2 Video Rewind 的深层洞察
Video Rewind 表面上是一个简单的数据增强技巧,但它体现了一个深刻的观察:在机器人操作中,大部分失败模式就是"做对了一半然后回退"。抓空了 = 靠近目标 + 远离目标;放歪了 = 对准 + 偏移。这意味着时间反转是一个合理的失败模拟器。
这个思路和 RISE 中进度估计 + TD 学习的双损失设计有异曲同工之处:两者都在用不同方式教奖励/价值模型识别"进度下降"。
5.3 进度预测 vs 排序 vs 偏好
ReWiND 选择了固定的进度回归目标
- 优势:目标稳定,输出天然归一化,训练简单
- 劣势:假设进度与时间步线性相关——但实际上抓取动作可能在最后几帧内完成大部分"进度跳跃"
RISE 的解决方案是用进度估计打基础 + TD 学习捕捉非线性成败信号。ReWiND 则用 Video Rewind 增强来弥补线性假设的不足。两种方案各有优劣。
5.4 仅首帧位置编码的启示
这是一个很有教育意义的设计选择。消融实验表明全帧位置编码让演示对齐指标"提升"(0.85 vs 0.79),但策略实际成功率下降 21%。这是因为模型通过位置编码"作弊"预测进度,在面对策略 rollout 时奖励仍然单调递增——即使策略在失败。评估指标要选对,否则会被误导。
5.5 可扩展性思考
ReWiND 的训练极为轻量(MetaWorld 仅 2k 步,真实世界 10k 步),但受限于冻结编码器的泛化上限。未来结合更强的机器人视觉基础模型(如 Octo、RT-2 的视觉编码器),并在此基础上做适度微调,可能打破这个上限。
参考
- VLC(Alakuijala et al., TMLR 2025):视频-语言 Critic,用序列排序目标训练奖励模型——ReWiND 的核心对比基线
- LIV(Ma et al., ICML 2023):基于 EpicKitchens 预训练的机器人奖励模型
- GVL(Ma et al., ICLR 2025):用 Gemini LLM 零样本预测帧级进度
- RoboCLIP(Sontakke et al., NeurIPS 2023):用 S3D 视频-语言模型做零样本奖励
- IQL(Kostrikov et al., ICLR 2022):隐式 Q 学习,ReWiND 离线 RL 的算法选择
- Open-X(Collaboration, ICRA 2024):大规模多机器人开源数据集,ReWiND 的多样化数据来源
- π₀.₆*(Physical Intelligence, 2025):RECAP 优势条件化离线 RL 框架