Skip to content

RL-Co:基于强化学习的 Sim-Real 协同训练框架——原理详解

论文:Beyond Imitation: Reinforcement Learning–Based Sim–Real Co-Training for VLA Models

作者:Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zang, Weinan Zhang, Chao Yu, Yu Wang

机构:清华大学、哈尔滨工业大学、北京大学、CMU、上海 AI Lab、中关村学院

发布时间:2026 年 2 月

arXiv | PDF | HuggingFace | GitHub


一句话总结

提出 RL-Co 框架:先用真实 + 仿真演示做 SFT 协同初始化,再在仿真中做 RL 微调并加真实数据 SFT 正则防遗忘,OpenVLA 提升 +24%、π0.5 提升 +20%,且数据效率远超纯 SFT 方案。


一、问题与动机

1.1 现有 Sim-Real 协同训练的局限

VLA 模型在部署到新场景时性能显著下降,而收集大规模真实世界演示成本高昂。仿真环境提供了可扩展的替代方案,现有 sim-real co-training 方法已展示出潜力。但几乎所有现有协同训练方法都停留在 SFT 范式——将仿真仅作为静态演示数据的来源,没有利用仿真最大的优势:可扩展的闭环交互

1.2 SFT 的根本缺陷

纯 SFT 训练的 VLA 模型存在 covariate shift(协变量偏移) 问题:

  • 训练时只见到专家轨迹
  • 部署时一旦偏离专家分布,误差逐步累积(compounding error)
  • 即使混入仿真数据做 SFT co-training,本质上仍是模仿学习,无法利用奖励反馈突破演示数据的性能上限

1.3 仿真 RL 的 sim-to-real 瓶颈

另一条路径是在仿真中做 RL 后训练(如本项目中的 RLVLA、FPO++ 等),但部署到真实世界通常依赖 zero-shot sim-to-real transfer + domain randomization,性能常常大幅下降。直接在真实世界做 RL 则面临高成本、安全风险和数据收集缓慢的问题。

1.4 RL-Co 的核心思路

RL-Co 的关键洞察:不追求 zero-shot transfer,而是将 RL 和真实数据同时纳入训练循环。具体来说:

  1. Stage I:用真实 + 仿真演示混合 SFT,既注入真实世界知识又建立仿真能力
  2. Stage II:在仿真中做 RL 扩展策略能力边界,同时加一个真实数据 SFT 正则项锚定策略、防止灾难性遗忘

这个设计简单而通用,兼容多种 VLA 架构和 RL 算法。


二、预备知识

2.1 问题建模

对于每个真实世界任务 Treal,构建一个对应的数字孪生仿真任务 Tsim。两者都被建模为 POMDP

MΩ=SΩ,A,PΩ,R,OΩ,L,P(s0),γ,Ω{real,sim}

关键假设:

  • 共享机器人构型和动作空间 A:真实与仿真使用相同的末端执行器增量控制
  • 共享语言指令 L:对应的真实和仿真任务使用相同的自然语言指令
  • 共享初始状态分布 P(s0)
  • 允许动力学差异PsimPreal,仿真无法完美还原真实物理
  • 允许视觉差异OsimOreal,仿真不追求照片级真实感

VLA 策略 πθ 输出 action chunk:

at:t+h1πθ(at:t+h1oΩtH+1:t,l)

2.2 SFT Co-Training

给定真实演示集 Dreal 和仿真演示集 Dsim,SFT co-training 的目标为:

LSFT(θ)=αLSFT(θ;Dsim)+(1α)LSFT(θ;Dreal)

其中 α[0,1] 控制仿真数据的相对贡献。实现上等价于以概率 αDsim 采样、概率 1αDreal 采样。

具体的 SFT 损失 SFT 取决于 VLA 架构:

  • OpenVLA:next-token prediction loss
  • π0.5:flow matching denoising objective

2.3 RL Fine-Tuning

RL 微调的目标是最大化期望折扣回报:

π=argmaxπθEπθ,P[t=0γtR(st,l)]

不同 VLA 架构对应不同的 RL 实现方式,但都遵循相同的模式:环境交互收集轨迹 → 基于奖励反馈更新策略。


三、核心方法

3.1 总体框架

RL-Co 是一个通用的两阶段框架:

Stage I: SFT Co-Training → Stage II: RL Co-Training

3.2 Stage I:SFT 协同初始化

从预训练 VLA πθ 出发,在 DrealDsim 的混合数据上做 SFT:

LSFT(θ)=αLSFT(θ;Dsim)+(1α)LSFT(θ;Dreal)

这一阶段有两个关键目的

  1. 注入真实世界知识:通过真实演示将任务相关的感知和控制行为迁移到策略中
  2. 引导仿真能力(Simulation Capability Bootstrapping):通过仿真演示让策略在仿真中达到非零成功率,为后续 RL 提供可用的初始化

用大白话说:如果直接从只见过真实数据的策略开始在仿真中做 RL,策略在仿真中的成功率可能接近零,RL 根本无从学起(后面消融实验证实了这一点)。

3.3 Stage II:Real-Regularized RL

Stage II 是 RL-Co 的核心创新。在仿真中做 RL 微调的同时,加入真实数据 SFT 正则:

Ltotal=LRL+βLSFT(θ;Dreal)

其中 β 是平衡系数,LRL 是任意 RL 损失(PPO、ReinFlow 等)。

两个项各自的角色

  • LRL:利用仿真的大规模交互进行探索,扩展策略的能力边界,突破 SFT 的性能上限
  • βLSFT(θ;Dreal):充当正则器(regularizer),将策略锚定在真实世界数据分布上,防止 RL 在仿真中的优化导致真实世界性能退化

用大白话说:RL 负责"往前跑"提升能力,SFT 正则负责"拉住绳子"不让策略跑偏到仿真特有的策略空间中去。

3.4 具体实现

论文在两个代表性 VLA 上验证了框架的通用性:

VLA 模型架构类型RL 算法SFT 微调方式训练框架
OpenVLA自回归(next-token prediction)PPO(基于 Liu et al. [42])LoRA (rank=32)自有代码库
π0.5Flow MatchingReinFlow全参数微调RLinf

仿真数据生成方面,采用 MimicGen 在 ManiSkill 中生成 1000 条成功轨迹/任务,种子轨迹来自真实世界演示的回放(而非重新遥操),并做了简化处理——去掉了冗长的自由空间运动段。


四、实验结果

4.1 主实验

四个桌面操作任务,OpenVLA 和 π0.5 两种模型,真实世界评估:

VLA 模型方法Pick & PlacePush CubeOpen DrawerClose Drawer平均
OpenVLAReal-Only SFT6.320.00.010.016.5
OpenVLASFT Co-Training23.451.70.085.040.0
OpenVLARL-Co58.868.335.095.064.0
π0.5Real-Only SFT71.90.00.035.026.7
π0.5SFT Co-Training68.810.010.095.045.9
π0.5RL-Co81.318.465.0100.066.2

关键观察:

  • RL-Co 在所有任务×模型组合上均优于两个基线,三个设置提升超过 35%
  • OpenVLA 平均 +24%(vs SFT Co-Training),π0.5 平均 +20%
  • 最显著的改进出现在 Open Drawer 这类接触丰富的任务上

4.2 泛化性分析

在 Pick and Place 任务上评估 π0.5 模型的 OOD 泛化:

方法In-DistributionUnseen ObjectsUnseen States
Real-Only71.925.0 ($\downarrow$46.9)40.0 ($\downarrow$31.9)
SFT Co-Training68.831.3 ($\downarrow$37.5)55.0 ($\downarrow$13.8)
RL-Co81.356.3 ($\downarrow$25.0)70.0 ($\downarrow$11.3)

RL-Co 在未见物体上的性能下降仅 25.0%,而 Real-Only 和 SFT Co-Training 分别下降 46.9% 和 37.5%。这说明 RL 交互式学习赋予策略更强的鲁棒性和迁移能力。

4.3 超参数敏感性

Co-Training Ratio α

  • SFT co-training 对 α 非常敏感——Pick and Place 任务中增大仿真比例反而伤害性能,Open Drawer 则需要较高的 α
  • RL-Co 在所有 α 值下都显著超越对应的 SFT-only 模型,说明 RL 能有效突破 SFT 的性能上限

Regularization Weight β

  • β 对最终性能也有显著影响
  • 但无论 β 取哪个值,RL co-training 的性能都一致优于所有 SFT-only 变体

4.4 消融实验

仿真 SFT 初始化的必要性

去掉 Stage I 中的仿真数据,直接从 Real-Only SFT 策略开始做 RL co-training,结果策略在仿真中超过 300 万步后成功率仍接近零。而有仿真 SFT 初始化的策略迅速收敛。

这证实了 Stage I 的仿真数据对后续 RL 至关重要——策略需要先在仿真中"站住脚",RL 才有优化空间。

真实世界监督的角色

Stage I 真实数据Stage II 真实数据成功率
6.3%
12.5%
40.3%
81.3%
  • 去掉 Stage II 的真实 SFT 正则:81.3% → 40.3%,灾难性遗忘严重
  • 去掉 Stage I 的真实数据:进一步降至 12.5%
  • 全部去掉:仅 6.3%,zero-shot sim-to-real 在低保真仿真中基本不可行

用大白话说:SFT 在利用少量真实数据方面远比 RL 高效(因为 RL 需要大量交互),所以真实数据的 SFT 项在两个阶段都不可或缺——Stage I 中用于注入真实世界知识,Stage II 中用于防止遗忘。

4.5 数据效率

在 Open Drawer 任务上,将真实演示从 20 条扩展到 200 条:

  • Real-Only SFT 和 SFT Co-Training 即使使用 200 条演示,性能仍低于 RL-Co 仅用 20 条演示时的水平
  • 这意味着 RL-Co 可以节省 10 倍以上的真实世界数据

五、局限性与未来方向

  1. 任务和构型有限:仅评估了单一机器人(Franka Panda)的四个桌面操作任务,未涉及异构 sim-real 设置
  2. 成功率未达 100%:RL-Co 显著提升了性能但仍有失败案例
  3. 未引入真实世界 RL:当前框架仅在仿真中做 RL,未来引入真实世界 RL 可能进一步提升鲁棒性
  4. 仿真构建成本:虽然不要求照片级真实感,但仍需构建数字孪生环境和设计奖励函数
  5. 扩展方向:更多样的任务、更长时域操作、更多机器人构型、更高效的 sim-real RL 协同训练

六、个人思考

6.1 方法极简但有效——"Occam's Razor" 式的贡献

RL-Co 的核心方法只有一个公式:Ltotal=LRL+βLSFT(θ;Dreal)。没有新的网络架构、没有复杂的训练流程,就是在 RL 损失上加一个真实数据的 SFT 正则。但消融实验证明每个组件都不可或缺,而且在两种架构差异很大的 VLA 上都有效(自回归的 OpenVLA 和 flow-based 的 π0.5),说明这是一个具有良好通用性的设计范式。

6.2 与 TwinRL 的对比

本项目中的 TwinRL 同样利用数字孪生做 sim-to-real,但两者的定位不同:

  • TwinRL 追求高保真数字孪生(3DGS 重建 + 6-DoF 位姿对齐),目标是让仿真尽可能接近真实,然后在仿真中做 RL + sim-to-real 引导探索
  • RL-Co 明确放弃高保真——"only model the essential object meshes and geometry...without replicating low-level visual properties",转而用真实数据 SFT 正则来弥补 sim-to-real gap

RL-Co 的路径更轻量:不需要 3DGS 重建,不需要精确的场景对齐,仿真构建成本低得多。但代价是仍然需要一定量的真实世界演示数据来做正则。两者代表了两种不同的哲学:提高仿真保真度 vs 在训练目标中嵌入真实世界锚点

6.3 与 RLVLA、RISE、WMPO 等的关系

  • RLVLA 的实证研究表明 RL 在语义和执行维度均优于 SFT。RL-Co 从另一个角度验证了这个结论:RL 在仿真中的交互式学习能够突破 SFT 数据的性能上限
  • RISEWMPO 在想象空间/隐空间中做 RL,避免了真实交互。RL-Co 则直接在仿真中做 RL,但加入真实数据正则来弥合 sim-to-real gap。相比之下,RISE/WMPO 的世界模型本身可能引入幻觉问题(WoVR 专门研究了这个问题),而 RL-Co 通过仿真器获得"真实"的环境反馈,不存在幻觉问题
  • π0.6 用离线 RL(RECAP)混合自主 rollout 和专家干预数据。RL-Co 的 Stage II 也混合了 RL 和 SFT 信号,但 RL-Co 是在仿真中做 on-policy RL 而非离线 RL,且不需要真实世界的 rollout 数据

6.4 数据效率的启示

消融实验中最有洞察力的发现:SFT 在利用少量真实数据方面远比 RL 高效。这解释了为什么真实数据的 SFT 正则在 Stage II 中主要起"保持"作用而非"学习"作用——RL 的数据效率不足以从少量真实数据中学到有用的东西,但 SFT 可以。这个观察对设计 sim-real 协同训练系统有重要的指导意义。

6.5 可扩展性问题

RL-Co 目前仅在 ManiSkill 的简单桌面任务上验证。对于更复杂的长时域操作或更大的 sim-to-real gap,真实数据 SFT 正则是否仍然足以锚定策略?当仿真中学到的策略与真实世界最优策略差异较大时,β 的设置可能变得更加困难。未来需要在更多样的环境中验证框架的鲁棒性。


七、参考

  • RLVLA (2025):系统性实证 RL 提升 VLA 泛化
  • TwinRL (2026):数字孪生驱动的真实世界机器人 RL
  • RISE (2026):组合式世界模型 + 想象空间 RL
  • WMPO (2025):隐空间世界模型 imagination RL
  • π0.6 (2025):RECAP 优势条件化离线 RL
  • WoVR (2026):幻觉感知世界模型 RL
  • RLinf (2025):大规模 RL 训练系统(本文使用的训练框架)
  • OpenVLA — 开源自回归 VLA 模型
  • π0.5 — Physical Intelligence 的 flow matching VLA
  • ManiSkill — GPU 并行机器人仿真平台
  • MimicGen — 基于少量人类演示的大规模轨迹生成系统