TwinRL-VLA：数字孪生驱动的真实世界机器人 RL——原理详解

论文：TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation
机构：北京大学、Simplexity Robotics、清华大学、香港科技大学
发布时间：2026年2月
arXiv | 项目主页

一句话总结

TwinRL 利用高保真数字孪生作为探索放大器和引导器，通过三阶段流程（探索空间扩展 → 孪生在线 RL → sim-to-real 引导探索）系统性地解决了真实世界 VLA RL 的探索效率瓶颈，四个任务平均仅需约 20 分钟即逼近 100% 成功率。

一、问题与动机

1.1 VLA 真实世界 RL 的核心困境

VLA 模型通过 SFT（监督微调）从专家演示中学习，但部署后面临两个根本性限制：

专家演示成本高：收集大量高质量遥操作数据非常昂贵
缺乏真实交互：SFT 阶段没有与物理环境的闭环交互，导致对复杂场景的鲁棒性不足

在线 RL 被认为是解决上述问题的有效方案——在 LLM 领域，RL 已经成功提升了推理能力（PPO、DPO 等）。但在真实世界机器人操作中，在线 RL 面临：

探索效率极低：真实机器人串行执行、速度慢、无法并行
探索空间受限：RL 的有效探索空间被 SFT 数据分布紧密约束

1.2 关键观察：SFT 数据分布决定了 RL 的探索空间

论文通过系统性的真实世界实验揭示了一个双重瓶颈：

瓶颈 I：SFT 覆盖范围限制了可靠探索的状态集合

实验设置：将工作空间分为分布内区域 A（有演示覆盖）和分布外区域 B（无演示覆盖）。比较两种策略：

A-only 策略（仅用区域 A 的 30 条演示训练）：在区域 B 的成功率为 0%
A+B 策略（增加区域 B 的 30 条数字孪生演示）：在区域 B 的成功率为 62.5%

更关键的是，从 A-only 模型出发在区域 B 做自主在线 RL，即使训练 40K 步（约两小时），策略始终无法获得正向奖励——陷入探索死锁。

瓶颈 II：即使有人在环干预，OOD 区域的在线适应效率也大幅下降

分别在区域 A 和区域 B 做 HiL（Human-in-the-Loop）在线 RL：

分布内后训练：约 45 分钟达到 90%+ 成功率
分布外后训练：在相同交互预算下，收敛速度明显更慢，无法达到可比性能

原因：OOD 区域中 replay buffer 高度不平衡（ID vs OOD 样本、遥操作 vs RL 轨迹风格、成功 vs 失败 episode），导致梯度效率低下。

1.3 TwinRL 的核心思路

这些观察引出了 TwinRL 的设计哲学：

克服双重瓶颈需要：(1) 在真实交互之前就扩展探索覆盖；(2) 在在线学习期间系统性地引导探索。

TwinRL 将数字孪生不仅仅作为模拟器，而是作为探索放大器（Exploration Amplifier）和探索引导器（Exploration Guide），在 SFT 和在线 RL 两个阶段协同发挥作用。

二、预备知识

2.1 VLA 策略动作生成

VLA 策略 $π_{θ}$ 将语言指令 $ℓ$ 和多视角图像 $I_{t} = {I_{t}^{side}, I_{t}^{wrist}}$ 映射到 7-DoF 末端执行器动作：

a_{t} \sim π_{θ} (a_{t} | I_{t}, ℓ)

动作 $a_{t} = (Δ p_{t}, Δ r_{t}, g_{t})$ 包含：

3D 平移增量 $Δ p_{t} \in R^{3}$
3D 旋转变化 $Δ r_{t} \in R^{3}$
二值夹爪状态 $g_{t} \in {0, 1}$

一个 rollout 轨迹记为 $τ = {(I_{t}, ℓ, a_{t})}_{t = 1}^{T}$ 。

2.2 强化学习公式化

机器人 RL 建模为 MDP $M = {S, A, ρ, P, r, γ}$ ：

状态价值函数： $V^{π} (s) = E_{π} [\sum_{t = 0}^{H} γ^{t} r (s_{t}, a_{t}) ∣ s_{0} = s]$
动作价值函数： $Q^{π} (s, a) = E_{π} [\sum_{t = 0}^{H} γ^{t} r (s_{t}, a_{t}) ∣ s_{0} = s, a_{0} = a]$
最优策略： $π^{*} = \arg max_{π} E_{π} [\sum_{t = 0}^{H} γ^{t} r (s_{t}, a_{t})]$

策略 $π_{θ} (a | s)$ 用神经网络参数化，建模为连续控制的高斯分布。

三、核心方法

TwinRL 是一个三阶段框架，每个阶段都围绕数字孪生展开。

3.1 数字孪生构建

场景重建流程：

用智能手机随意拍摄约 1 分钟的视频
使用 3D Gaussian Splatting（3DGS）重建场景（约 10 分钟）
使用 SAM3D 重建可操作物体（约 5 秒）
机器人从 URDF 模型导入
所有组件统一为 mesh 资产，在 Blender 中进行运动学组装和高效渲染

真实-孪生对齐：

以 URDF 定义的机器人坐标系为锚点：

粗对齐：ICP 点云配准
精对齐：可微 3DGS 渲染优化，最小化机器人 URDF 分割掩码与 3DGS 渲染掩码之间的差异：

L_{align} = \frac{1}{N} \sum_{i = 1}^{N} {(I_{i}^{URDF} - I_{i}^{GS})}^{2}

物体中心表示：使用 AnyGrasp 估计被操作物体的 6-DoF 抓取姿态，定义物体与末端执行器的关系。不需要完整的物理仿真——使用运动学交互模型，优先保证视觉-几何一致性。

3.2 Stage I：探索空间扩展（SFT 阶段）

核心思想：在 SFT 预热阶段，将数字孪生作为探索放大器，丰富轨迹多样性以扩展后续在线 RL 的有效探索空间。

合成轨迹生成：变化物体的初始配置、目标姿态和运动路径，生成覆盖分布外区域的多样化轨迹。给定物体初始姿态 $T_{0} \in S E (3)$ 和目标姿态 $T_{target} \in S E (3)$ ，估计抓取姿态 $T_{grasp}$ ，推导出末端执行器的边界姿态：

T_{start}^{ee} = T_{0} \cdot T_{grasp}, T_{end}^{ee} = T_{target} \cdot T_{grasp}

中间轨迹通过运动规划或仿射变换生成。对于 30 步的任务，并行处理下约 1 分钟即可构建一组数字孪生演示。

SFT 训练：在合并的 buffer $D$ （真实演示 + 合成演示）上最小化模仿学习损失：

L_{π}^{IL} = - E_{(s, a) \sim D} [\log π_{ψ} (a | s)]

关键点：数字孪生不仅用于覆盖 OOD 区域，也收集额外的分布内数据，以缩小 sim-to-real 差距。

3.3 Stage II：孪生在线 RL

问题：直接在真实机器人上启动在线 RL 存在两个瓶颈：

SFT 演示 $D_{sft}$ 和 RL 风格专家轨迹 $D_{rl}$ 之间的分布不匹配，导致性能退化和 Q 值不稳定
HiL 引导的在线 RL 样本复杂度仍然很高

解决方案：先在数字孪生中做并行在线 RL，桥接离线到在线的过渡。

策略 $π_{ψ}$ 从 SFT 模型初始化，在 $N$ 个并行孪生环境中交互训练。受 ConRFT 启发，采用联合目标：

L_{π}^{twin} (ψ) = β L_{π}^{IL} + η L_{π}^{Q}

其中：

$L_{π}^{IL}$ 是 SFT 中使用的模仿学习损失（正则化项）
$L_{π}^{Q} = - E_{s \sim D, a \sim π_{ψ} (\cdot | s)} [Q_{θ} (s, a)]$ 是 RL 目标，鼓励选择 Critic 估计 Q 值更高的动作
$Q_{θ}$ 通过标准 TD 学习更新

孪生在线 RL 高效收集多样化轨迹（成功、失败、恢复行为），存入孪生 replay buffer $D_{twin}$ 。真实世界 replay buffer 用孪生 buffer 初始化：

D_{real}^{init} \leftarrow D_{twin}

这提供了更平衡的训练信号，减少从离线 SFT 过渡到在线学习时的训练不稳定性和性能退化，同时防止在后续 HiL 引导在线 RL 中遗忘已经表现良好的配置。

3.4 Stage III：真实世界在线 RL（Sim-to-Real 引导探索）

核心思想：利用数字孪生识别状态空间中的失败易发区域，引导真实世界在线 RL 的初始状态分布。

有目标的初始配置选择：在数字孪生中评估当前策略，构建目标初始配置集合：

S_{target} = {s_{0} ∣ S R (s_{0}) < τ}

其中 $S R (s_{0})$ 是状态 $s_{0}$ 的经验成功率， $τ$ 是熟练度阈值。真实世界在线交互中，episode 重置优先从 $S_{target}$ 中采样，使有限的物理交互预算聚焦在挑战性状态上。

HiL 引导机制：在真实机器人训练期间引入人在环干预。与现有 HiL 方法的关键区别在于：数字孪生告知何时何地应该进行人在环干预——不是随机干预，而是精准投放到失败易发但信息量大的区域。

四、实验结果

4.1 实验设置

硬件：7-DoF Franka Emika Research 3（FR3），双摄像头（固定第三人称 + 腕部）
骨干模型：Octo
四个任务：Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block、Erase-Whiteboard
任务覆盖多步、精密和接触丰富的操作，每个任务划分 ID（分布内）和 OOD（分布外）区域

数据配置：

所有方法统一使用 30 条真实世界演示
TwinRL 额外使用 60 条 ID 区域 + 30 条 OOD 区域的合成轨迹

4.2 主要结果（对比 HiL-SERL、ConRFT）

维度	TwinRL	ConRFT	HiL-SERL
最终成功率	~100%	77.2%	71.25%
平均收敛时间	~20 min	31 min	30 min

分布内区域：TwinRL 各变体大多超过 90% 成功率，收敛速度明显快于基线。关键差异在于是否有 sim-to-real 引导探索。

分布外区域：差距更加显著。TwinRL 以更少的真实世界交互达到高成功率，而 ConRFT 和 HiL-SERL 在相同交互预算下收敛更慢或无法达到可比性能。

稳定性：所有方法在从离线 SFT 过渡到在线学习时都表现出明显的成功率下降。TwinRL 最小化了这一差距，更快恢复性能达到 100%——这与从孪生 RL rollout 初始化真实 replay buffer 缓解早期性能崩溃一致。

4.3 消融实验

探索空间扩展的影响

ID 数据	OOD 数据	ID 成功率	OOD 成功率	平均成功率
0	0	40%	0%	27%
30	30	70% (+30%)	30% (+30%)	57% (+30%)
60	30	80% (+40%)	40% (+40%)	67% (+40%)
30	60	70% (+30%)	70% (+70%)	70% (+43%)

关键发现：

均衡添加 ID/OOD 数据即可获得显著提升
增加 ID 数据主要提升 ID 区域表现；增加 OOD 数据主要提升 OOD 区域表现
更多合成数据有帮助，但也增加 SFT 时间，存在精度-效率权衡

孪生 Replay Buffer 的影响

成功轨迹数	失败轨迹数	在线步数	成功率
0	0	5.0k	90%
20	0	3.5k	100%
30	0	4.0k	90%
20	20	4.5k	90%
20	40	7.0k	70%

关键发现：

成功轨迹显著加速在线 RL 训练
失败轨迹反而降低效率——数字孪生中的失败往往是随机失败模式，而非真实世界 HiL 交互中有意义的、任务相关的失败

Sim-to-Real 引导的影响

有引导 vs 无引导：

有引导：约 4k 步（~14 分钟）达到 100% 成功率
无引导：改善更慢，达到的成功率更低

4.4 鲁棒性分析

在六边形积木插入任务上，对比 SFT 策略和 TwinRL 策略在未见过的环境扰动下的表现：

条件	TwinRL	SFT Only
原始环境	100%	70%
较暗光照	80% (↓20%)	50% (↓29%)
动态光照	70% (↓30%)	30% (↓57%)
背景杂物	80% (↓20%)	30% (↓57%)

TwinRL 性能仅轻微下降，而 SFT 模型退化严重。RL 微调推动策略趋向更稳定的控制和噪声容忍的决策边界。

五、局限性与未来方向

残留的离线-在线过渡差距：尽管 TwinRL 部分缓解了分布偏移，早期阶段仍可能出现性能差距
失败轨迹利用不足：当前数字孪生中的失败轨迹是随机的，未来需要更有原则的方式利用有信息量的失败
对 HiL 的依赖：虽然大幅减少了人在环干预，但仍需要人类操作员参与，未来可进一步降低对 HiL 的依赖

六、个人思考

与已有论文的联系

与 RISE 的对比：RISE 和 TwinRL 都试图解决真实世界 VLA RL 的探索效率问题，但采用了截然不同的路径：

RISE 训练组合式世界模型（视频生成 + 价值评估），在想象空间中做 on-policy RL，完全不需要额外的物理交互
TwinRL 构建高保真数字孪生（3DGS 场景重建），作为探索放大器和引导器，最终仍然在真实世界做在线 RL

两者的哲学差异在于：RISE 相信世界模型足以替代真实交互，TwinRL 相信真实交互不可或缺但需要更高效地利用。TwinRL 的方法更加实用——数字孪生的构建是确定性的（不依赖学习），而世界模型的质量是瓶颈。

与 VLAC 的对比：两者都涉及真实世界 RL + HiL 机制。VLAC 的贡献在于统一 Actor-Critic 架构和 pairwise progress 奖励；TwinRL 的贡献在于用数字孪生引导 HiL 的何时何地，从随机干预变为有目标的精准干预。

与 WoVR/WMPO 的对比：这些方法同样利用世界模型做 RL 后训练。不同之处在于 TwinRL 的"世界模型"不是学习得到的神经网络，而是 3DGS 重建的确定性数字孪生——视觉保真度更高，但缺乏对物理动力学的建模（使用运动学近似）。

方法洞察

"RL 的有效探索空间被 SFT 数据分布约束" 这一观察非常有价值，与 LLM 领域中 "RL primarily reweights reasoning paths already supported by the base model rather than expanding them" 的发现一脉相承。这为所有 VLA RL 工作提供了重要的实验依据。
数字孪生构建流程的工程化程度很高：手机拍摄 → 3DGS → mesh → Blender 渲染，整个流程约 10-15 分钟，这使得方法在新环境中的适用性很强。
失败轨迹反而降低效率这一发现值得深思——简单地混合所有类型的经验并不总是有益的，经验的信息量和相关性比数量更重要。

参考

ConRFT（Chen et al., 2025）：TwinRL 的 RL 训练目标（IL + Q）的直接基础
HiL-SERL（Luo et al., 2025）：人在环 RL 基线，TwinRL 在其基础上引入数字孪生引导
Real2Render2Real（Yu et al., 2025）：TwinRL 的数字孪生构建流程参考
π₀.₆*（Physical Intelligence, 2025）：RECAP 离线 RL 框架，代表了离线路线的 SOTA
Octo（Octo Team, 2023）：所有实验的 VLA 骨干模型
AnyGrasp（Fang et al., 2023）：物体中心 6-DoF 抓取姿态估计

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

TwinRL-VLA：数字孪生驱动的真实世界机器人 RL——原理详解 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 真实世界 RL 的核心困境 ​

1.2 关键观察：SFT 数据分布决定了 RL 的探索空间 ​

1.3 TwinRL 的核心思路 ​

二、预备知识 ​

2.1 VLA 策略动作生成 ​

2.2 强化学习公式化 ​

三、核心方法 ​

3.1 数字孪生构建 ​

3.2 Stage I：探索空间扩展（SFT 阶段） ​

3.3 Stage II：孪生在线 RL ​

3.4 Stage III：真实世界在线 RL（Sim-to-Real 引导探索） ​

四、实验结果 ​

4.1 实验设置 ​

4.2 主要结果（对比 HiL-SERL、ConRFT） ​

4.3 消融实验 ​

探索空间扩展的影响 ​

孪生 Replay Buffer 的影响 ​

Sim-to-Real 引导的影响 ​

4.4 鲁棒性分析 ​

五、局限性与未来方向 ​

六、个人思考 ​

与已有论文的联系 ​

方法洞察 ​

参考 ​