MoRE: Mixture of Robotic Experts——四足 VLA 的 MoE 架构与离线 RL 训练

论文：MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models
作者：Han Zhao, Wenxuan Song, Donglin Wang, Xinyang Tong, Pengxiang Ding, Xuelian Cheng, Zongyuan Ge
机构：浙江大学、西湖大学 MiLAB、Monash University AIM Lab、HKUST(GZ)
发布时间：2025年3月（ICRA 2025）
链接：arXiv

一句话总结

在 Fuyu 8B 骨架上引入 Mixture of LoRA Experts（MoE）实现多任务适配，并利用自回归 Q-learning 离线 RL 目标从混合质量数据（专家 + 次优）中学习，使四足机器人 VLA 在 6 种技能上平均成功率从 44% 提升至 60%，且泛化到 OOD 场景和真实世界。

一、问题与动机

1.1 现有四足 VLA 的两大瓶颈

瓶颈一：架构不匹配。现有 VLA 模型直接在通用 MLLM 架构上微调，未针对机器人任务的多样性做适配。四足机器人需要同时处理导航、运动控制、操纵等差异极大的技能，单一密集网络难以在多任务间取得平衡。

瓶颈二：只能从专家数据学习。主流 IL（imitation learning）范式要求高质量专家演示，但采集成本高。机器人自主收集的大量次优数据（执行不佳或失败的轨迹）被浪费。IL 无法从失败中学习，只能"模仿成功"。

1.2 离线 RL 的机会

Kumar et al. (2022) 指出：当数据质量混杂、分布偏移明显时，离线 RL 能从次优数据中提取超越数据生成策略的好策略，而 IL 仅能复制数据分布。

1.3 本文的切入点

能否将 MoE 架构与离线 RL 结合，让大规模 VLA 模型同时解决多任务适配和混合质量数据利用两个问题？

二、预备知识

2.1 自回归离散 Q-learning

将动作空间离散化为 token 序列，VLA 模型的 logit 输出经 sigmoid 变换后充当 Q-function：

Q (s, a) = σ (P_{LM} (a | s))

其中 $σ$ 是 sigmoid 函数，确保 Q 值落在 $(0, 1)$ 。每个动作维度 $a^{i}$ 被视为一个 token，自回归地输出 $d_{A}$ 维动作：

P_{LM} (a_{t} | s_{t}) = \prod_{i = 0}^{d_{A}} P_{LM} (a_{t}^{i} | I_{RGB}; T_{Inst}; a_{t}^{1 : i - 1})

对应的 Bellman 算子在 token 维度上递推：

Q (s_{t}, a_{t}^{1 : i - 1}, a_{t}^{i}) = {\begin{cases} max_{a_{t}^{i + 1}} Q (s_{t}, a_{t}^{1 : i}, a_{t}^{i + 1}) & if i < d_{A} \\ R (s_{t}, a_{t}) + γ max_{a_{t + 1}^{1}} Q (s_{t + 1}, a_{t + 1}^{1}) & if i = d_{A} \end{cases}

用大白话说：在最后一个 action token 处做标准 Bellman 更新（奖励 + 折扣最优未来），在中间 token 处只做 max 传播。这种设计来自 Q-Transformer (Chebotar et al., 2023)。

2.2 Mixture-of-Experts (MoE)

MoE 层通过可学习的 router 选择性激活部分专家：

y = \sum_{k = 1}^{N} G (x)_{k} E_{k} (x), G (x) = Softmax (TopK (W_{g} x))

$K < N$ 时为稀疏激活，可在不增加推理计算量的前提下扩大模型容量。

三、核心方法

3.1 模型架构

MoRE 的整体架构：

视觉-语言输入：RGB 图像 $I_{RGB}$ 和语言指令 $T_{Inst}$ 分别编码为 image tokens 和 text tokens，拼接后送入 Transformer
骨架：Fuyu 8B，一个支持任意分辨率和多图输入的 decoder-only Transformer（32 层）
Mixture of LoRA Experts：在每层 Transformer block 的 FFN 上构建 MoE
动作输出：12 维离散化机器人指令，经 action de-tokenizer 解码

动作空间：

[v_{x}, v_{y}, ω_{z}, θ_{1}, θ_{2}, θ_{3}, f, h_{z}, ϕ, s_{y}, h_{z}^{f}, T]

分别对应：三轴速度、三个步态参数、频率、机身高度、俯仰角、足宽、足高、终止信号。

3.2 Mixture of LoRA Experts

核心思想：冻结原始 MLLM 参数，在每层 FFN 上叠加多个 LoRA adapter 作为不同专家。

每个专家 $E_{k}$ 由共享 FFN 权重 + 专属 LoRA adapter 组成：

E_{k} (x) = (W_{down} + W_{down}^{{LoRA}_{k}}) \cdot f ((W_{up} + W_{up}^{{LoRA}_{k}}) \cdot x)

其中 $W_{down}, W_{up}$ 是所有专家共享的原始 FFN 权重（冻结）， $W^{{LoRA}_{k}}$ 是第 $k$ 个专家独有的低秩适配器（可训练）。

设计优势：

参数效率：相比复制整个 FFN 做 MoE（如 MoE-LLaVA），LoRA experts 只增加极少量参数
任务路由：router 根据 token 内容将不同任务（locomotion、navigation、manipulation）路由到擅长的专家
注意力层 LoRA：每个 decoder 层的 self-attention 模块也加入单个 LoRA adapter

3.3 训练目标

MDP 结构分析

论文识别出四个关键结构性质，论证了为何离线 RL 优于 IL：

Horizon-independent returns：奖励仅在任务成功时为 1，其余为 0
Limited critical points：轨迹的成败仅取决于少数关键状态（如蹲下钻障碍、将物体倒入容器），大部分状态的动作空间较宽容
Long-horizon data：轨迹较长
Distribution shifts：离线数据与在线部署的分布差异

这些性质意味着：在非关键状态上，策略有较大的探索自由度。离线 RL 能快速收敛到"足够好"的动作，而 IL 只能盲目模仿数据分布。

RL 损失

L_{RL} = \frac{1}{2} E_{s \sim D, a \sim π_{β}} [(Q (s, a) - B^{*} Q^{k} (s, a))^{2}] + α \cdot \frac{1}{2} E_{s \sim D, a \sim {\tilde{π}}_{β}} [(Q (s, a) - 0)^{2}]

第一项：标准 Bellman 误差，在数据集内的 state-action pair 上拟合 Q 值
第二项：保守正则项，将不在行为策略分布内的动作的 Q 值压低到 0，防止 OOD 过估计
${\tilde{π}}_{β} (a | s) = \frac{1}{Z (s)} (1 - π_{β} (a | s))$ 是行为策略的"互补分布"，即低概率动作的分布
$α = 0.5$ 控制保守强度

MoE 负载均衡损失

L_{MoE} = \frac{1}{N} \sum_{k = 1}^{N} f_{k} P_{k}

其中 $f_{k}$ 是分配给第 $k$ 个专家的 token 比例， $P_{k}$ 是 router 分配给第 $k$ 个专家的概率均值。这个辅助损失鼓励各专家负载均匀。

总损失

L = L_{RL} + β L_{MoE}, α = 0.5, β = 0.002

四、实验

4.1 实验设置

仿真：NVIDIA Isaac Gym 并行仿真
真实机器人：Unitree Go2 四足机器人，RealSense D435 前置摄像头
低层控制器：Walk-These-Ways RL 策略，接收 MoRE 输出的 12 维高层指令生成关节动作
数据：
- 专家数据：6 类任务，共 1,822,405 条（来自 QUARD 人类演示）
- 次优数据：4 类任务，共 440,732 条（来自 QUARD-Auto 自主收集）
训练：8 × A100 GPU，专家数据训练约 100 小时，混合数据训练约 125 小时

4.2 6 任务成功率

难度	任务	CLIP (86M)	VC-1 (307M)	QUART (8B)	MoRE (9.82B)
Easy	Distinguish	0.44	0.46	0.66	0.82
Easy	Go to	0.43	0.43	0.60	0.80
Medium	Go avoid	0.45	0.45	0.53	0.59
Medium	Go through	0.19	0.31	0.41	0.57
Hard	Crawl	0	0	0.32	0.49
Hard	Unload	0	0	0.12	0.33
—	Average	0.25	0.28	0.44	0.60

MoRE 在所有任务上均超越基线，平均成功率从 44%（QUART）提升到 60%，提升 36%。尤其在困难任务（Crawl、Unload）上提升显著，说明 MoE + RL 的组合对需要全身协调的复杂技能尤为有效。

4.3 消融实验

变体	是否使用次优数据	Average
QUART (baseline)	N	0.44
w/o RL（纯 IL）	N	0.51
w/o MoE（无专家混合）	Y	0.48
w/o S-Data（无次优数据）	N	0.56
MoRE (full)	Y	0.60

三个关键发现：

RL vs IL（w/o RL vs MoRE）：即使仅用专家数据，RL 目标也优于 IL（0.51 vs 0.44，对比 QUART），因为 RL 能从奖励信号中学到"好的选择"，而非盲目模仿
MoE 的作用（w/o MoE）：去掉 MoE 后成功率从 0.60 降至 0.48，说明多专家路由对多任务学习至关重要
次优数据的价值（w/o S-Data）：加入次优数据后从 0.56 提升到 0.60，但在 Go avoid 任务上反而下降，因为稀疏奖励使得从失败数据中学习该任务较困难

4.4 真实世界实验

在小规模真实数据上微调后，MoRE 成功完成了 Go to、Crawl、Unload 三类任务。尽管真实数据只包含"Go to the colored ball"和"Distinguish the letter"等简单场景，模型仍能泛化到"Go to the computer"等未见指令，展示了 MLLM 常识知识的迁移能力。

五、局限性与未来方向

仅限四足：方法专门针对四足机器人设计，12 维动作空间绑定到特定步态控制器，未验证对操纵臂等其他构型的泛化
离线 RL 而非在线：依赖预收集数据，无法通过在线交互持续改进；结合在线 RL 可能进一步提升
稀疏奖励局限：消融实验中 Go avoid 任务在加入次优数据后反而下降，暴露了稀疏奖励 + 离线 RL 的学习困难
MoE 路由未充分分析：论文未深入分析不同任务的 token 实际被路由到哪些专家，以及专家是否真正实现了功能分化
真实世界评估不充分：仅展示了定性轨迹，缺少定量成功率统计

六、个人思考

6.1 与项目中其他论文的联系

本文与项目已有笔记的关系：

RLVLA：同样验证了 RL 优于 IL 的结论，但 RLVLA 使用在线 PPO 在操纵任务上做系统性泛化分析，而 MoRE 使用离线 Q-learning 在四足任务上验证。两者互补证实了"RL 从奖励中学习比纯模仿更强"这一结论
Q-Transformer：MoRE 的自回归 Q-learning 直接来自 Q-Transformer (Chebotar et al., 2023)，核心训练目标一致，MoRE 的贡献在于将其扩展到 MoE 架构的大规模 VLA
RPD：RPD 将 VLA 知识蒸馏为小型 RL 专家，MoRE 则在 VLA 内部直接做 RL 训练。两者代表了"VLA+RL"的两种路线——内化 vs 外化
GR-RL：同样研究通用 VLA 如何在特定技能上精进，GR-RL 用多阶段流水线（数据过滤 + 在线 RL），MoRE 用 MoE 路由 + 离线 RL，思路不同但目标一致

6.2 MoE 用于 VLA 的独特价值

MoRE 是首个将 MoE 架构应用于端到端 VLA 模型的工作。其核心洞察：不同机器人技能之间的差异足够大，以至于单一参数集难以同时适配。导航需要空间推理，操纵需要精细运动控制，步态调整需要动力学理解——这些能力自然适合由不同专家处理。

相比 MoE-LLaVA 等 VQA 领域的工作，MoRE 的 LoRA-based experts 更加参数高效（共享 FFN 权重，只增加低秩差异），这对机器人部署的内存约束很重要。

6.3 离线 RL 的 MDP 结构论证

论文对 MDP 结构性质的分析（horizon-independent returns、limited critical points 等）是一个值得关注的贡献。它提供了一个"何时离线 RL 优于 IL"的判断框架：

如果奖励稀疏且只在终点给出 → horizon-independent returns
如果大部分状态有多个"够好"的动作 → 离线 RL 容易学到
如果轨迹很长 → IL 的复合误差更严重

这个分析框架可以指导其他机器人任务在 IL 和 RL 之间的选择。

6.4 从四足到通用

MoRE 目前绑定在四足 + walk-these-ways 控制器的框架中。一个自然的扩展方向是将 MoE 路由 + 离线 RL 的组合推广到操纵臂等构型。特别是在异构数据训练（如 π₀.₅ 的跨构型训练）场景中，MoE 路由可能发挥更大价值——不同构型的 token 自然路由到不同专家。

参考

RLVLA (Yi et al., 2025) — 系统性实证：RL 在语义和执行维度显著提升 VLA 泛化
RPD (Li et al., 2025) — PPO + MSE 蒸馏将 VLA 通才知识提炼为紧凑 RL 专家
GR-RL (2025) — 多阶段流水线特化通才 VLA 为精密操作专家
Q-Transformer (Chebotar et al., 2023) — 自回归离散 Q-learning 的源头
QUART (Ding et al., 2024) — 本文的四足 VLA 基线

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

MoRE: Mixture of Robotic Experts——四足 VLA 的 MoE 架构与离线 RL 训练 ​

一句话总结 ​

一、问题与动机 ​

1.1 现有四足 VLA 的两大瓶颈 ​

1.2 离线 RL 的机会 ​

1.3 本文的切入点 ​

二、预备知识 ​

2.1 自回归离散 Q-learning ​

2.2 Mixture-of-Experts (MoE) ​

三、核心方法 ​

3.1 模型架构 ​

3.2 Mixture of LoRA Experts ​

3.3 训练目标 ​

MDP 结构分析 ​

RL 损失 ​

MoE 负载均衡损失 ​

总损失 ​

四、实验 ​

4.1 实验设置 ​

4.2 6 任务成功率 ​

4.3 消融实验 ​

4.4 真实世界实验 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 与项目中其他论文的联系 ​

6.2 MoE 用于 VLA 的独特价值 ​

6.3 离线 RL 的 MDP 结构论证 ​

6.4 从四足到通用 ​

参考 ​