MoRE: Mixture of Robotic Experts——四足 VLA 的 MoE 架构与离线 RL 训练
论文:MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models
作者:Han Zhao, Wenxuan Song, Donglin Wang, Xinyang Tong, Pengxiang Ding, Xuelian Cheng, Zongyuan Ge
机构:浙江大学、西湖大学 MiLAB、Monash University AIM Lab、HKUST(GZ)
发布时间:2025年3月(ICRA 2025)
链接:arXiv
一句话总结
在 Fuyu 8B 骨架上引入 Mixture of LoRA Experts(MoE)实现多任务适配,并利用自回归 Q-learning 离线 RL 目标从混合质量数据(专家 + 次优)中学习,使四足机器人 VLA 在 6 种技能上平均成功率从 44% 提升至 60%,且泛化到 OOD 场景和真实世界。
一、问题与动机
1.1 现有四足 VLA 的两大瓶颈
瓶颈一:架构不匹配。现有 VLA 模型直接在通用 MLLM 架构上微调,未针对机器人任务的多样性做适配。四足机器人需要同时处理导航、运动控制、操纵等差异极大的技能,单一密集网络难以在多任务间取得平衡。
瓶颈二:只能从专家数据学习。主流 IL(imitation learning)范式要求高质量专家演示,但采集成本高。机器人自主收集的大量次优数据(执行不佳或失败的轨迹)被浪费。IL 无法从失败中学习,只能"模仿成功"。
1.2 离线 RL 的机会
Kumar et al. (2022) 指出:当数据质量混杂、分布偏移明显时,离线 RL 能从次优数据中提取超越数据生成策略的好策略,而 IL 仅能复制数据分布。
1.3 本文的切入点
能否将 MoE 架构与离线 RL 结合,让大规模 VLA 模型同时解决多任务适配和混合质量数据利用两个问题?
二、预备知识
2.1 自回归离散 Q-learning
将动作空间离散化为 token 序列,VLA 模型的 logit 输出经 sigmoid 变换后充当 Q-function:
其中
对应的 Bellman 算子在 token 维度上递推:
用大白话说:在最后一个 action token 处做标准 Bellman 更新(奖励 + 折扣最优未来),在中间 token 处只做 max 传播。这种设计来自 Q-Transformer (Chebotar et al., 2023)。
2.2 Mixture-of-Experts (MoE)
MoE 层通过可学习的 router 选择性激活部分专家:
三、核心方法
3.1 模型架构
MoRE 的整体架构:
- 视觉-语言输入:RGB 图像
和语言指令 分别编码为 image tokens 和 text tokens,拼接后送入 Transformer - 骨架:Fuyu 8B,一个支持任意分辨率和多图输入的 decoder-only Transformer(32 层)
- Mixture of LoRA Experts:在每层 Transformer block 的 FFN 上构建 MoE
- 动作输出:12 维离散化机器人指令,经 action de-tokenizer 解码
动作空间:
分别对应:三轴速度、三个步态参数、频率、机身高度、俯仰角、足宽、足高、终止信号。
3.2 Mixture of LoRA Experts
核心思想:冻结原始 MLLM 参数,在每层 FFN 上叠加多个 LoRA adapter 作为不同专家。
每个专家
其中
设计优势:
- 参数效率:相比复制整个 FFN 做 MoE(如 MoE-LLaVA),LoRA experts 只增加极少量参数
- 任务路由:router 根据 token 内容将不同任务(locomotion、navigation、manipulation)路由到擅长的专家
- 注意力层 LoRA:每个 decoder 层的 self-attention 模块也加入单个 LoRA adapter
3.3 训练目标
MDP 结构分析
论文识别出四个关键结构性质,论证了为何离线 RL 优于 IL:
- Horizon-independent returns:奖励仅在任务成功时为 1,其余为 0
- Limited critical points:轨迹的成败仅取决于少数关键状态(如蹲下钻障碍、将物体倒入容器),大部分状态的动作空间较宽容
- Long-horizon data:轨迹较长
- Distribution shifts:离线数据与在线部署的分布差异
这些性质意味着:在非关键状态上,策略有较大的探索自由度。离线 RL 能快速收敛到"足够好"的动作,而 IL 只能盲目模仿数据分布。
RL 损失
- 第一项:标准 Bellman 误差,在数据集内的 state-action pair 上拟合 Q 值
- 第二项:保守正则项,将不在行为策略分布内的动作的 Q 值压低到 0,防止 OOD 过估计
是行为策略的"互补分布",即低概率动作的分布 控制保守强度
MoE 负载均衡损失
其中
总损失
四、实验
4.1 实验设置
- 仿真:NVIDIA Isaac Gym 并行仿真
- 真实机器人:Unitree Go2 四足机器人,RealSense D435 前置摄像头
- 低层控制器:Walk-These-Ways RL 策略,接收 MoRE 输出的 12 维高层指令生成关节动作
- 数据:
- 专家数据:6 类任务,共 1,822,405 条(来自 QUARD 人类演示)
- 次优数据:4 类任务,共 440,732 条(来自 QUARD-Auto 自主收集)
- 训练:8 × A100 GPU,专家数据训练约 100 小时,混合数据训练约 125 小时
4.2 6 任务成功率
| 难度 | 任务 | CLIP (86M) | VC-1 (307M) | QUART (8B) | MoRE (9.82B) |
|---|---|---|---|---|---|
| Easy | Distinguish | 0.44 | 0.46 | 0.66 | 0.82 |
| Easy | Go to | 0.43 | 0.43 | 0.60 | 0.80 |
| Medium | Go avoid | 0.45 | 0.45 | 0.53 | 0.59 |
| Medium | Go through | 0.19 | 0.31 | 0.41 | 0.57 |
| Hard | Crawl | 0 | 0 | 0.32 | 0.49 |
| Hard | Unload | 0 | 0 | 0.12 | 0.33 |
| — | Average | 0.25 | 0.28 | 0.44 | 0.60 |
MoRE 在所有任务上均超越基线,平均成功率从 44%(QUART)提升到 60%,提升 36%。尤其在困难任务(Crawl、Unload)上提升显著,说明 MoE + RL 的组合对需要全身协调的复杂技能尤为有效。
4.3 消融实验
| 变体 | 是否使用次优数据 | Average |
|---|---|---|
| QUART (baseline) | N | 0.44 |
| w/o RL(纯 IL) | N | 0.51 |
| w/o MoE(无专家混合) | Y | 0.48 |
| w/o S-Data(无次优数据) | N | 0.56 |
| MoRE (full) | Y | 0.60 |
三个关键发现:
- RL vs IL(w/o RL vs MoRE):即使仅用专家数据,RL 目标也优于 IL(0.51 vs 0.44,对比 QUART),因为 RL 能从奖励信号中学到"好的选择",而非盲目模仿
- MoE 的作用(w/o MoE):去掉 MoE 后成功率从 0.60 降至 0.48,说明多专家路由对多任务学习至关重要
- 次优数据的价值(w/o S-Data):加入次优数据后从 0.56 提升到 0.60,但在 Go avoid 任务上反而下降,因为稀疏奖励使得从失败数据中学习该任务较困难
4.4 真实世界实验
在小规模真实数据上微调后,MoRE 成功完成了 Go to、Crawl、Unload 三类任务。尽管真实数据只包含"Go to the colored ball"和"Distinguish the letter"等简单场景,模型仍能泛化到"Go to the computer"等未见指令,展示了 MLLM 常识知识的迁移能力。
五、局限性与未来方向
- 仅限四足:方法专门针对四足机器人设计,12 维动作空间绑定到特定步态控制器,未验证对操纵臂等其他构型的泛化
- 离线 RL 而非在线:依赖预收集数据,无法通过在线交互持续改进;结合在线 RL 可能进一步提升
- 稀疏奖励局限:消融实验中 Go avoid 任务在加入次优数据后反而下降,暴露了稀疏奖励 + 离线 RL 的学习困难
- MoE 路由未充分分析:论文未深入分析不同任务的 token 实际被路由到哪些专家,以及专家是否真正实现了功能分化
- 真实世界评估不充分:仅展示了定性轨迹,缺少定量成功率统计
六、个人思考
6.1 与项目中其他论文的联系
本文与项目已有笔记的关系:
- RLVLA:同样验证了 RL 优于 IL 的结论,但 RLVLA 使用在线 PPO 在操纵任务上做系统性泛化分析,而 MoRE 使用离线 Q-learning 在四足任务上验证。两者互补证实了"RL 从奖励中学习比纯模仿更强"这一结论
- Q-Transformer:MoRE 的自回归 Q-learning 直接来自 Q-Transformer (Chebotar et al., 2023),核心训练目标一致,MoRE 的贡献在于将其扩展到 MoE 架构的大规模 VLA
- RPD:RPD 将 VLA 知识蒸馏为小型 RL 专家,MoRE 则在 VLA 内部直接做 RL 训练。两者代表了"VLA+RL"的两种路线——内化 vs 外化
- GR-RL:同样研究通用 VLA 如何在特定技能上精进,GR-RL 用多阶段流水线(数据过滤 + 在线 RL),MoRE 用 MoE 路由 + 离线 RL,思路不同但目标一致
6.2 MoE 用于 VLA 的独特价值
MoRE 是首个将 MoE 架构应用于端到端 VLA 模型的工作。其核心洞察:不同机器人技能之间的差异足够大,以至于单一参数集难以同时适配。导航需要空间推理,操纵需要精细运动控制,步态调整需要动力学理解——这些能力自然适合由不同专家处理。
相比 MoE-LLaVA 等 VQA 领域的工作,MoRE 的 LoRA-based experts 更加参数高效(共享 FFN 权重,只增加低秩差异),这对机器人部署的内存约束很重要。
6.3 离线 RL 的 MDP 结构论证
论文对 MDP 结构性质的分析(horizon-independent returns、limited critical points 等)是一个值得关注的贡献。它提供了一个"何时离线 RL 优于 IL"的判断框架:
- 如果奖励稀疏且只在终点给出 → horizon-independent returns
- 如果大部分状态有多个"够好"的动作 → 离线 RL 容易学到
- 如果轨迹很长 → IL 的复合误差更严重
这个分析框架可以指导其他机器人任务在 IL 和 RL 之间的选择。
6.4 从四足到通用
MoRE 目前绑定在四足 + walk-these-ways 控制器的框架中。一个自然的扩展方向是将 MoE 路由 + 离线 RL 的组合推广到操纵臂等构型。特别是在异构数据训练(如 π₀.₅ 的跨构型训练)场景中,MoE 路由可能发挥更大价值——不同构型的 token 自然路由到不同专家。
参考
- RLVLA (Yi et al., 2025) — 系统性实证:RL 在语义和执行维度显著提升 VLA 泛化
- RPD (Li et al., 2025) — PPO + MSE 蒸馏将 VLA 通才知识提炼为紧凑 RL 专家
- GR-RL (2025) — 多阶段流水线特化通才 VLA 为精密操作专家
- Q-Transformer (Chebotar et al., 2023) — 自回归离散 Q-learning 的源头
- QUART (Ding et al., 2024) — 本文的四足 VLA 基线