RL-Co:基于强化学习的 Sim-Real 协同训练框架——原理详解
论文:Beyond Imitation: Reinforcement Learning–Based Sim–Real Co-Training for VLA Models
作者:Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zang, Weinan Zhang, Chao Yu, Yu Wang
机构:清华大学、哈尔滨工业大学、北京大学、CMU、上海 AI Lab、中关村学院
发布时间:2026 年 2 月
arXiv | PDF | HuggingFace | GitHub
一句话总结
提出 RL-Co 框架:先用真实 + 仿真演示做 SFT 协同初始化,再在仿真中做 RL 微调并加真实数据 SFT 正则防遗忘,OpenVLA 提升 +24%、
一、问题与动机
1.1 现有 Sim-Real 协同训练的局限
VLA 模型在部署到新场景时性能显著下降,而收集大规模真实世界演示成本高昂。仿真环境提供了可扩展的替代方案,现有 sim-real co-training 方法已展示出潜力。但几乎所有现有协同训练方法都停留在 SFT 范式——将仿真仅作为静态演示数据的来源,没有利用仿真最大的优势:可扩展的闭环交互。
1.2 SFT 的根本缺陷
纯 SFT 训练的 VLA 模型存在 covariate shift(协变量偏移) 问题:
- 训练时只见到专家轨迹
- 部署时一旦偏离专家分布,误差逐步累积(compounding error)
- 即使混入仿真数据做 SFT co-training,本质上仍是模仿学习,无法利用奖励反馈突破演示数据的性能上限
1.3 仿真 RL 的 sim-to-real 瓶颈
另一条路径是在仿真中做 RL 后训练(如本项目中的 RLVLA、FPO++ 等),但部署到真实世界通常依赖 zero-shot sim-to-real transfer + domain randomization,性能常常大幅下降。直接在真实世界做 RL 则面临高成本、安全风险和数据收集缓慢的问题。
1.4 RL-Co 的核心思路
RL-Co 的关键洞察:不追求 zero-shot transfer,而是将 RL 和真实数据同时纳入训练循环。具体来说:
- Stage I:用真实 + 仿真演示混合 SFT,既注入真实世界知识又建立仿真能力
- Stage II:在仿真中做 RL 扩展策略能力边界,同时加一个真实数据 SFT 正则项锚定策略、防止灾难性遗忘
这个设计简单而通用,兼容多种 VLA 架构和 RL 算法。
二、预备知识
2.1 问题建模
对于每个真实世界任务
关键假设:
- 共享机器人构型和动作空间
:真实与仿真使用相同的末端执行器增量控制 - 共享语言指令
:对应的真实和仿真任务使用相同的自然语言指令 - 共享初始状态分布
- 允许动力学差异:
,仿真无法完美还原真实物理 - 允许视觉差异:
,仿真不追求照片级真实感
VLA 策略
2.2 SFT Co-Training
给定真实演示集
其中
具体的 SFT 损失
- OpenVLA:next-token prediction loss
:flow matching denoising objective
2.3 RL Fine-Tuning
RL 微调的目标是最大化期望折扣回报:
不同 VLA 架构对应不同的 RL 实现方式,但都遵循相同的模式:环境交互收集轨迹 → 基于奖励反馈更新策略。
三、核心方法
3.1 总体框架
RL-Co 是一个通用的两阶段框架:
Stage I: SFT Co-Training → Stage II: RL Co-Training3.2 Stage I:SFT 协同初始化
从预训练 VLA
这一阶段有两个关键目的:
- 注入真实世界知识:通过真实演示将任务相关的感知和控制行为迁移到策略中
- 引导仿真能力(Simulation Capability Bootstrapping):通过仿真演示让策略在仿真中达到非零成功率,为后续 RL 提供可用的初始化
用大白话说:如果直接从只见过真实数据的策略开始在仿真中做 RL,策略在仿真中的成功率可能接近零,RL 根本无从学起(后面消融实验证实了这一点)。
3.3 Stage II:Real-Regularized RL
Stage II 是 RL-Co 的核心创新。在仿真中做 RL 微调的同时,加入真实数据 SFT 正则:
其中
两个项各自的角色:
:利用仿真的大规模交互进行探索,扩展策略的能力边界,突破 SFT 的性能上限 :充当正则器(regularizer),将策略锚定在真实世界数据分布上,防止 RL 在仿真中的优化导致真实世界性能退化
用大白话说:RL 负责"往前跑"提升能力,SFT 正则负责"拉住绳子"不让策略跑偏到仿真特有的策略空间中去。
3.4 具体实现
论文在两个代表性 VLA 上验证了框架的通用性:
| VLA 模型 | 架构类型 | RL 算法 | SFT 微调方式 | 训练框架 |
|---|---|---|---|---|
| OpenVLA | 自回归(next-token prediction) | PPO(基于 Liu et al. [42]) | LoRA (rank=32) | 自有代码库 |
| Flow Matching | ReinFlow | 全参数微调 | RLinf |
仿真数据生成方面,采用 MimicGen 在 ManiSkill 中生成 1000 条成功轨迹/任务,种子轨迹来自真实世界演示的回放(而非重新遥操),并做了简化处理——去掉了冗长的自由空间运动段。
四、实验结果
4.1 主实验
四个桌面操作任务,OpenVLA 和
| VLA 模型 | 方法 | Pick & Place | Push Cube | Open Drawer | Close Drawer | 平均 |
|---|---|---|---|---|---|---|
| OpenVLA | Real-Only SFT | 6.3 | 20.0 | 0.0 | 10.0 | 16.5 |
| OpenVLA | SFT Co-Training | 23.4 | 51.7 | 0.0 | 85.0 | 40.0 |
| OpenVLA | RL-Co | 58.8 | 68.3 | 35.0 | 95.0 | 64.0 |
| Real-Only SFT | 71.9 | 0.0 | 0.0 | 35.0 | 26.7 | |
| SFT Co-Training | 68.8 | 10.0 | 10.0 | 95.0 | 45.9 | |
| RL-Co | 81.3 | 18.4 | 65.0 | 100.0 | 66.2 |
关键观察:
- RL-Co 在所有任务×模型组合上均优于两个基线,三个设置提升超过 35%
- OpenVLA 平均 +24%(vs SFT Co-Training),
平均 +20% - 最显著的改进出现在 Open Drawer 这类接触丰富的任务上
4.2 泛化性分析
在 Pick and Place 任务上评估
| 方法 | In-Distribution | Unseen Objects | Unseen States |
|---|---|---|---|
| Real-Only | 71.9 | 25.0 ($\downarrow$46.9) | 40.0 ($\downarrow$31.9) |
| SFT Co-Training | 68.8 | 31.3 ($\downarrow$37.5) | 55.0 ($\downarrow$13.8) |
| RL-Co | 81.3 | 56.3 ($\downarrow$25.0) | 70.0 ($\downarrow$11.3) |
RL-Co 在未见物体上的性能下降仅 25.0%,而 Real-Only 和 SFT Co-Training 分别下降 46.9% 和 37.5%。这说明 RL 交互式学习赋予策略更强的鲁棒性和迁移能力。
4.3 超参数敏感性
Co-Training Ratio
- SFT co-training 对
非常敏感——Pick and Place 任务中增大仿真比例反而伤害性能,Open Drawer 则需要较高的 - RL-Co 在所有
值下都显著超越对应的 SFT-only 模型,说明 RL 能有效突破 SFT 的性能上限
Regularization Weight
对最终性能也有显著影响 - 但无论
取哪个值,RL co-training 的性能都一致优于所有 SFT-only 变体
4.4 消融实验
仿真 SFT 初始化的必要性:
去掉 Stage I 中的仿真数据,直接从 Real-Only SFT 策略开始做 RL co-training,结果策略在仿真中超过 300 万步后成功率仍接近零。而有仿真 SFT 初始化的策略迅速收敛。
这证实了 Stage I 的仿真数据对后续 RL 至关重要——策略需要先在仿真中"站住脚",RL 才有优化空间。
真实世界监督的角色:
| Stage I 真实数据 | Stage II 真实数据 | 成功率 |
|---|---|---|
| ✗ | ✗ | 6.3% |
| ✗ | ✓ | 12.5% |
| ✓ | ✗ | 40.3% |
| ✓ | ✓ | 81.3% |
- 去掉 Stage II 的真实 SFT 正则:81.3% → 40.3%,灾难性遗忘严重
- 去掉 Stage I 的真实数据:进一步降至 12.5%
- 全部去掉:仅 6.3%,zero-shot sim-to-real 在低保真仿真中基本不可行
用大白话说:SFT 在利用少量真实数据方面远比 RL 高效(因为 RL 需要大量交互),所以真实数据的 SFT 项在两个阶段都不可或缺——Stage I 中用于注入真实世界知识,Stage II 中用于防止遗忘。
4.5 数据效率
在 Open Drawer 任务上,将真实演示从 20 条扩展到 200 条:
- Real-Only SFT 和 SFT Co-Training 即使使用 200 条演示,性能仍低于 RL-Co 仅用 20 条演示时的水平
- 这意味着 RL-Co 可以节省 10 倍以上的真实世界数据
五、局限性与未来方向
- 任务和构型有限:仅评估了单一机器人(Franka Panda)的四个桌面操作任务,未涉及异构 sim-real 设置
- 成功率未达 100%:RL-Co 显著提升了性能但仍有失败案例
- 未引入真实世界 RL:当前框架仅在仿真中做 RL,未来引入真实世界 RL 可能进一步提升鲁棒性
- 仿真构建成本:虽然不要求照片级真实感,但仍需构建数字孪生环境和设计奖励函数
- 扩展方向:更多样的任务、更长时域操作、更多机器人构型、更高效的 sim-real RL 协同训练
六、个人思考
6.1 方法极简但有效——"Occam's Razor" 式的贡献
RL-Co 的核心方法只有一个公式:
6.2 与 TwinRL 的对比
本项目中的 TwinRL 同样利用数字孪生做 sim-to-real,但两者的定位不同:
- TwinRL 追求高保真数字孪生(3DGS 重建 + 6-DoF 位姿对齐),目标是让仿真尽可能接近真实,然后在仿真中做 RL + sim-to-real 引导探索
- RL-Co 明确放弃高保真——"only model the essential object meshes and geometry...without replicating low-level visual properties",转而用真实数据 SFT 正则来弥补 sim-to-real gap
RL-Co 的路径更轻量:不需要 3DGS 重建,不需要精确的场景对齐,仿真构建成本低得多。但代价是仍然需要一定量的真实世界演示数据来做正则。两者代表了两种不同的哲学:提高仿真保真度 vs 在训练目标中嵌入真实世界锚点。
6.3 与 RLVLA、RISE、WMPO 等的关系
- RLVLA 的实证研究表明 RL 在语义和执行维度均优于 SFT。RL-Co 从另一个角度验证了这个结论:RL 在仿真中的交互式学习能够突破 SFT 数据的性能上限
- RISE 和 WMPO 在想象空间/隐空间中做 RL,避免了真实交互。RL-Co 则直接在仿真中做 RL,但加入真实数据正则来弥合 sim-to-real gap。相比之下,RISE/WMPO 的世界模型本身可能引入幻觉问题(WoVR 专门研究了这个问题),而 RL-Co 通过仿真器获得"真实"的环境反馈,不存在幻觉问题
用离线 RL(RECAP)混合自主 rollout 和专家干预数据。RL-Co 的 Stage II 也混合了 RL 和 SFT 信号,但 RL-Co 是在仿真中做 on-policy RL 而非离线 RL,且不需要真实世界的 rollout 数据
6.4 数据效率的启示
消融实验中最有洞察力的发现:SFT 在利用少量真实数据方面远比 RL 高效。这解释了为什么真实数据的 SFT 正则在 Stage II 中主要起"保持"作用而非"学习"作用——RL 的数据效率不足以从少量真实数据中学到有用的东西,但 SFT 可以。这个观察对设计 sim-real 协同训练系统有重要的指导意义。
6.5 可扩展性问题
RL-Co 目前仅在 ManiSkill 的简单桌面任务上验证。对于更复杂的长时域操作或更大的 sim-to-real gap,真实数据 SFT 正则是否仍然足以锚定策略?当仿真中学到的策略与真实世界最优策略差异较大时,
七、参考
- RLVLA (2025):系统性实证 RL 提升 VLA 泛化
- TwinRL (2026):数字孪生驱动的真实世界机器人 RL
- RISE (2026):组合式世界模型 + 想象空间 RL
- WMPO (2025):隐空间世界模型 imagination RL
(2025):RECAP 优势条件化离线 RL - WoVR (2026):幻觉感知世界模型 RL
- RLinf (2025):大规模 RL 训练系统(本文使用的训练框架)
- OpenVLA — 开源自回归 VLA 模型
— Physical Intelligence 的 flow matching VLA - ManiSkill — GPU 并行机器人仿真平台
- MimicGen — 基于少量人类演示的大规模轨迹生成系统