RL-Co：基于强化学习的 Sim-Real 协同训练框架——原理详解

论文：Beyond Imitation: Reinforcement Learning–Based Sim–Real Co-Training for VLA Models
作者：Liangzhi Shi, Shuaihang Chen, Feng Gao, Yinuo Chen, Kang Chen, Tonghe Zhang, Hongzhi Zang, Weinan Zhang, Chao Yu, Yu Wang
机构：清华大学、哈尔滨工业大学、北京大学、CMU、上海 AI Lab、中关村学院
发布时间：2026 年 2 月
arXiv | PDF | HuggingFace | GitHub

一句话总结

提出 RL-Co 框架：先用真实 + 仿真演示做 SFT 协同初始化，再在仿真中做 RL 微调并加真实数据 SFT 正则防遗忘，OpenVLA 提升 +24%、 $π_{0.5}$ 提升 +20%，且数据效率远超纯 SFT 方案。

一、问题与动机

1.1 现有 Sim-Real 协同训练的局限

VLA 模型在部署到新场景时性能显著下降，而收集大规模真实世界演示成本高昂。仿真环境提供了可扩展的替代方案，现有 sim-real co-training 方法已展示出潜力。但几乎所有现有协同训练方法都停留在 SFT 范式——将仿真仅作为静态演示数据的来源，没有利用仿真最大的优势：可扩展的闭环交互。

1.2 SFT 的根本缺陷

纯 SFT 训练的 VLA 模型存在 covariate shift（协变量偏移） 问题：

训练时只见到专家轨迹
部署时一旦偏离专家分布，误差逐步累积（compounding error）
即使混入仿真数据做 SFT co-training，本质上仍是模仿学习，无法利用奖励反馈突破演示数据的性能上限

1.3 仿真 RL 的 sim-to-real 瓶颈

另一条路径是在仿真中做 RL 后训练（如本项目中的 RLVLA、FPO++ 等），但部署到真实世界通常依赖 zero-shot sim-to-real transfer + domain randomization，性能常常大幅下降。直接在真实世界做 RL 则面临高成本、安全风险和数据收集缓慢的问题。

1.4 RL-Co 的核心思路

RL-Co 的关键洞察：不追求 zero-shot transfer，而是将 RL 和真实数据同时纳入训练循环。具体来说：

Stage I：用真实 + 仿真演示混合 SFT，既注入真实世界知识又建立仿真能力
Stage II：在仿真中做 RL 扩展策略能力边界，同时加一个真实数据 SFT 正则项锚定策略、防止灾难性遗忘

这个设计简单而通用，兼容多种 VLA 架构和 RL 算法。

二、预备知识

2.1 问题建模

对于每个真实世界任务 $T_{real}$ ，构建一个对应的数字孪生仿真任务 $T_{sim}$ 。两者都被建模为 POMDP：

M_{Ω} = ⟨ S_{Ω}, A, P_{Ω}, R, O_{Ω}, L, P (s_{0}), γ ⟩, Ω \in {real, sim}

关键假设：

共享机器人构型和动作空间 $A$ ：真实与仿真使用相同的末端执行器增量控制
共享语言指令 $L$ ：对应的真实和仿真任务使用相同的自然语言指令
共享初始状态分布 $P (s_{0})$
允许动力学差异： $P_{sim} \neq P_{real}$ ，仿真无法完美还原真实物理
允许视觉差异： $O_{sim} \neq O_{real}$ ，仿真不追求照片级真实感

VLA 策略 $π_{θ}$ 输出 action chunk：

a_{t : t + h - 1} \sim π_{θ} (a_{t : t + h - 1} ∣ o_{Ω}^{t - H + 1 : t}, l)

2.2 SFT Co-Training

给定真实演示集 $D_{real}$ 和仿真演示集 $D_{sim}$ ，SFT co-training 的目标为：

L_{SFT} (θ) = α L_{SFT} (θ; D_{sim}) + (1 - α) L_{SFT} (θ; D_{real})

其中 $α \in [0, 1]$ 控制仿真数据的相对贡献。实现上等价于以概率 $α$ 从 $D_{sim}$ 采样、概率 $1 - α$ 从 $D_{real}$ 采样。

具体的 SFT 损失 $ℓ_{SFT}$ 取决于 VLA 架构：

OpenVLA：next-token prediction loss
$π_{0.5}$ ：flow matching denoising objective

2.3 RL Fine-Tuning

RL 微调的目标是最大化期望折扣回报：

π^{*} = \arg max_{π_{θ}} E_{π_{θ}, P} [\sum_{t = 0}^{\infty} γ^{t} R (s_{t}, l)]

不同 VLA 架构对应不同的 RL 实现方式，但都遵循相同的模式：环境交互收集轨迹 → 基于奖励反馈更新策略。

三、核心方法

3.1 总体框架

RL-Co 是一个通用的两阶段框架：

Stage I: SFT Co-Training → Stage II: RL Co-Training

3.2 Stage I：SFT 协同初始化

从预训练 VLA $π_{θ}$ 出发，在 $D_{real}$ 和 $D_{sim}$ 的混合数据上做 SFT：

L_{SFT} (θ) = α L_{SFT} (θ; D_{sim}) + (1 - α) L_{SFT} (θ; D_{real})

这一阶段有两个关键目的：

注入真实世界知识：通过真实演示将任务相关的感知和控制行为迁移到策略中
引导仿真能力（Simulation Capability Bootstrapping）：通过仿真演示让策略在仿真中达到非零成功率，为后续 RL 提供可用的初始化

用大白话说：如果直接从只见过真实数据的策略开始在仿真中做 RL，策略在仿真中的成功率可能接近零，RL 根本无从学起（后面消融实验证实了这一点）。

3.3 Stage II：Real-Regularized RL

Stage II 是 RL-Co 的核心创新。在仿真中做 RL 微调的同时，加入真实数据 SFT 正则：

L_{total} = L_{RL} + β L_{SFT} (θ; D_{real})

其中 $β$ 是平衡系数， $L_{RL}$ 是任意 RL 损失（PPO、ReinFlow 等）。

两个项各自的角色：

$L_{RL}$ ：利用仿真的大规模交互进行探索，扩展策略的能力边界，突破 SFT 的性能上限
$β L_{SFT} (θ; D_{real})$ ：充当正则器（regularizer），将策略锚定在真实世界数据分布上，防止 RL 在仿真中的优化导致真实世界性能退化

用大白话说：RL 负责"往前跑"提升能力，SFT 正则负责"拉住绳子"不让策略跑偏到仿真特有的策略空间中去。

3.4 具体实现

论文在两个代表性 VLA 上验证了框架的通用性：

VLA 模型	架构类型	RL 算法	SFT 微调方式	训练框架
OpenVLA	自回归（next-token prediction）	PPO（基于 Liu et al. [42]）	LoRA (rank=32)	自有代码库
$π_{0.5}$	Flow Matching	ReinFlow	全参数微调	RLinf

仿真数据生成方面，采用 MimicGen 在 ManiSkill 中生成 1000 条成功轨迹/任务，种子轨迹来自真实世界演示的回放（而非重新遥操），并做了简化处理——去掉了冗长的自由空间运动段。

四、实验结果

4.1 主实验

四个桌面操作任务，OpenVLA 和 $π_{0.5}$ 两种模型，真实世界评估：

VLA 模型	方法	Pick & Place	Push Cube	Open Drawer	Close Drawer	平均
OpenVLA	Real-Only SFT	6.3	20.0	0.0	10.0	16.5
OpenVLA	SFT Co-Training	23.4	51.7	0.0	85.0	40.0
OpenVLA	RL-Co	58.8	68.3	35.0	95.0	64.0
$π_{0.5}$	Real-Only SFT	71.9	0.0	0.0	35.0	26.7
$π_{0.5}$	SFT Co-Training	68.8	10.0	10.0	95.0	45.9
$π_{0.5}$	RL-Co	81.3	18.4	65.0	100.0	66.2

关键观察：

RL-Co 在所有任务×模型组合上均优于两个基线，三个设置提升超过 35%
OpenVLA 平均 +24%（vs SFT Co-Training）， $π_{0.5}$ 平均 +20%
最显著的改进出现在 Open Drawer 这类接触丰富的任务上

4.2 泛化性分析

在 Pick and Place 任务上评估 $π_{0.5}$ 模型的 OOD 泛化：

方法	In-Distribution	Unseen Objects	Unseen States
Real-Only	71.9	25.0 ($\downarrow$46.9)	40.0 ($\downarrow$31.9)
SFT Co-Training	68.8	31.3 ($\downarrow$37.5)	55.0 ($\downarrow$13.8)
RL-Co	81.3	56.3 ($\downarrow$25.0)	70.0 ($\downarrow$11.3)

RL-Co 在未见物体上的性能下降仅 25.0%，而 Real-Only 和 SFT Co-Training 分别下降 46.9% 和 37.5%。这说明 RL 交互式学习赋予策略更强的鲁棒性和迁移能力。

4.3 超参数敏感性

Co-Training Ratio $α$ ：

SFT co-training 对 $α$ 非常敏感——Pick and Place 任务中增大仿真比例反而伤害性能，Open Drawer 则需要较高的 $α$
RL-Co 在所有 $α$ 值下都显著超越对应的 SFT-only 模型，说明 RL 能有效突破 SFT 的性能上限

Regularization Weight $β$ ：

$β$ 对最终性能也有显著影响
但无论 $β$ 取哪个值，RL co-training 的性能都一致优于所有 SFT-only 变体

4.4 消融实验

仿真 SFT 初始化的必要性：

去掉 Stage I 中的仿真数据，直接从 Real-Only SFT 策略开始做 RL co-training，结果策略在仿真中超过 300 万步后成功率仍接近零。而有仿真 SFT 初始化的策略迅速收敛。

这证实了 Stage I 的仿真数据对后续 RL 至关重要——策略需要先在仿真中"站住脚"，RL 才有优化空间。

真实世界监督的角色：

Stage I 真实数据	Stage II 真实数据	成功率
✗	✗	6.3%
✗	✓	12.5%
✓	✗	40.3%
✓	✓	81.3%

去掉 Stage II 的真实 SFT 正则：81.3% → 40.3%，灾难性遗忘严重
去掉 Stage I 的真实数据：进一步降至 12.5%
全部去掉：仅 6.3%，zero-shot sim-to-real 在低保真仿真中基本不可行

用大白话说：SFT 在利用少量真实数据方面远比 RL 高效（因为 RL 需要大量交互），所以真实数据的 SFT 项在两个阶段都不可或缺——Stage I 中用于注入真实世界知识，Stage II 中用于防止遗忘。

4.5 数据效率

在 Open Drawer 任务上，将真实演示从 20 条扩展到 200 条：

Real-Only SFT 和 SFT Co-Training 即使使用 200 条演示，性能仍低于 RL-Co 仅用 20 条演示时的水平
这意味着 RL-Co 可以节省 10 倍以上的真实世界数据

五、局限性与未来方向

任务和构型有限：仅评估了单一机器人（Franka Panda）的四个桌面操作任务，未涉及异构 sim-real 设置
成功率未达 100%：RL-Co 显著提升了性能但仍有失败案例
未引入真实世界 RL：当前框架仅在仿真中做 RL，未来引入真实世界 RL 可能进一步提升鲁棒性
仿真构建成本：虽然不要求照片级真实感，但仍需构建数字孪生环境和设计奖励函数
扩展方向：更多样的任务、更长时域操作、更多机器人构型、更高效的 sim-real RL 协同训练

六、个人思考

6.1 方法极简但有效——"Occam's Razor" 式的贡献

RL-Co 的核心方法只有一个公式： $L_{total} = L_{RL} + β L_{SFT} (θ; D_{real})$ 。没有新的网络架构、没有复杂的训练流程，就是在 RL 损失上加一个真实数据的 SFT 正则。但消融实验证明每个组件都不可或缺，而且在两种架构差异很大的 VLA 上都有效（自回归的 OpenVLA 和 flow-based 的 $π_{0.5}$ ），说明这是一个具有良好通用性的设计范式。

6.2 与 TwinRL 的对比

本项目中的 TwinRL 同样利用数字孪生做 sim-to-real，但两者的定位不同：

TwinRL 追求高保真数字孪生（3DGS 重建 + 6-DoF 位姿对齐），目标是让仿真尽可能接近真实，然后在仿真中做 RL + sim-to-real 引导探索
RL-Co 明确放弃高保真——"only model the essential object meshes and geometry...without replicating low-level visual properties"，转而用真实数据 SFT 正则来弥补 sim-to-real gap

RL-Co 的路径更轻量：不需要 3DGS 重建，不需要精确的场景对齐，仿真构建成本低得多。但代价是仍然需要一定量的真实世界演示数据来做正则。两者代表了两种不同的哲学：提高仿真保真度 vs 在训练目标中嵌入真实世界锚点。

6.3 与 RLVLA、RISE、WMPO 等的关系

RLVLA 的实证研究表明 RL 在语义和执行维度均优于 SFT。RL-Co 从另一个角度验证了这个结论：RL 在仿真中的交互式学习能够突破 SFT 数据的性能上限
RISE 和 WMPO 在想象空间/隐空间中做 RL，避免了真实交互。RL-Co 则直接在仿真中做 RL，但加入真实数据正则来弥合 sim-to-real gap。相比之下，RISE/WMPO 的世界模型本身可能引入幻觉问题（WoVR 专门研究了这个问题），而 RL-Co 通过仿真器获得"真实"的环境反馈，不存在幻觉问题
$π_{0.6}^{*}$ 用离线 RL（RECAP）混合自主 rollout 和专家干预数据。RL-Co 的 Stage II 也混合了 RL 和 SFT 信号，但 RL-Co 是在仿真中做 on-policy RL 而非离线 RL，且不需要真实世界的 rollout 数据

6.4 数据效率的启示

消融实验中最有洞察力的发现：SFT 在利用少量真实数据方面远比 RL 高效。这解释了为什么真实数据的 SFT 正则在 Stage II 中主要起"保持"作用而非"学习"作用——RL 的数据效率不足以从少量真实数据中学到有用的东西，但 SFT 可以。这个观察对设计 sim-real 协同训练系统有重要的指导意义。

6.5 可扩展性问题

RL-Co 目前仅在 ManiSkill 的简单桌面任务上验证。对于更复杂的长时域操作或更大的 sim-to-real gap，真实数据 SFT 正则是否仍然足以锚定策略？当仿真中学到的策略与真实世界最优策略差异较大时， $β$ 的设置可能变得更加困难。未来需要在更多样的环境中验证框架的鲁棒性。

七、参考

RLVLA (2025)：系统性实证 RL 提升 VLA 泛化
TwinRL (2026)：数字孪生驱动的真实世界机器人 RL
RISE (2026)：组合式世界模型 + 想象空间 RL
WMPO (2025)：隐空间世界模型 imagination RL
$π_{0.6}^{*}$ (2025)：RECAP 优势条件化离线 RL
WoVR (2026)：幻觉感知世界模型 RL
RLinf (2025)：大规模 RL 训练系统（本文使用的训练框架）
OpenVLA — 开源自回归 VLA 模型
$π_{0.5}$ — Physical Intelligence 的 flow matching VLA
ManiSkill — GPU 并行机器人仿真平台
MimicGen — 基于少量人类演示的大规模轨迹生成系统

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

RL-Co：基于强化学习的 Sim-Real 协同训练框架——原理详解 ​

一句话总结 ​

一、问题与动机 ​

1.1 现有 Sim-Real 协同训练的局限 ​

1.2 SFT 的根本缺陷 ​

1.3 仿真 RL 的 sim-to-real 瓶颈 ​

1.4 RL-Co 的核心思路 ​

二、预备知识 ​

2.1 问题建模 ​

2.2 SFT Co-Training ​

2.3 RL Fine-Tuning ​

三、核心方法 ​

3.1 总体框架 ​

3.2 Stage I：SFT 协同初始化 ​

3.3 Stage II：Real-Regularized RL ​

3.4 具体实现 ​

四、实验结果 ​

4.1 主实验 ​

4.2 泛化性分析 ​

4.3 超参数敏感性 ​

4.4 消融实验 ​

4.5 数据效率 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 方法极简但有效——"Occam's Razor" 式的贡献 ​

6.2 与 TwinRL 的对比 ​

6.3 与 RLVLA、RISE、WMPO 等的关系 ​

6.4 数据效率的启示 ​

6.5 可扩展性问题 ​

七、参考 ​