Skip to content

MoRE: Mixture of Robotic Experts——四足 VLA 的 MoE 架构与离线 RL 训练

论文MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models

作者:Han Zhao, Wenxuan Song, Donglin Wang, Xinyang Tong, Pengxiang Ding, Xuelian Cheng, Zongyuan Ge

机构:浙江大学、西湖大学 MiLAB、Monash University AIM Lab、HKUST(GZ)

发布时间:2025年3月(ICRA 2025)

链接arXiv


一句话总结

在 Fuyu 8B 骨架上引入 Mixture of LoRA Experts(MoE)实现多任务适配,并利用自回归 Q-learning 离线 RL 目标从混合质量数据(专家 + 次优)中学习,使四足机器人 VLA 在 6 种技能上平均成功率从 44% 提升至 60%,且泛化到 OOD 场景和真实世界。


一、问题与动机

1.1 现有四足 VLA 的两大瓶颈

瓶颈一:架构不匹配。现有 VLA 模型直接在通用 MLLM 架构上微调,未针对机器人任务的多样性做适配。四足机器人需要同时处理导航、运动控制、操纵等差异极大的技能,单一密集网络难以在多任务间取得平衡。

瓶颈二:只能从专家数据学习。主流 IL(imitation learning)范式要求高质量专家演示,但采集成本高。机器人自主收集的大量次优数据(执行不佳或失败的轨迹)被浪费。IL 无法从失败中学习,只能"模仿成功"。

1.2 离线 RL 的机会

Kumar et al. (2022) 指出:当数据质量混杂、分布偏移明显时,离线 RL 能从次优数据中提取超越数据生成策略的好策略,而 IL 仅能复制数据分布。

1.3 本文的切入点

能否将 MoE 架构与离线 RL 结合,让大规模 VLA 模型同时解决多任务适配和混合质量数据利用两个问题?


二、预备知识

2.1 自回归离散 Q-learning

将动作空间离散化为 token 序列,VLA 模型的 logit 输出经 sigmoid 变换后充当 Q-function:

Q(s,a)=σ(PLM(a|s))

其中 σ 是 sigmoid 函数,确保 Q 值落在 (0,1)。每个动作维度 ai 被视为一个 token,自回归地输出 dA 维动作:

PLM(at|st)=i=0dAPLM(ati|IRGB;TInst;at1:i1)

对应的 Bellman 算子在 token 维度上递推:

Q(st,at1:i1,ati)={maxati+1Q(st,at1:i,ati+1)if i<dAR(st,at)+γmaxat+11Q(st+1,at+11)if i=dA

用大白话说:在最后一个 action token 处做标准 Bellman 更新(奖励 + 折扣最优未来),在中间 token 处只做 max 传播。这种设计来自 Q-Transformer (Chebotar et al., 2023)。

2.2 Mixture-of-Experts (MoE)

MoE 层通过可学习的 router 选择性激活部分专家:

y=k=1NG(x)kEk(x),G(x)=Softmax(TopK(Wgx))

K<N 时为稀疏激活,可在不增加推理计算量的前提下扩大模型容量。


三、核心方法

3.1 模型架构

MoRE 的整体架构:

  1. 视觉-语言输入:RGB 图像 IRGB 和语言指令 TInst 分别编码为 image tokens 和 text tokens,拼接后送入 Transformer
  2. 骨架:Fuyu 8B,一个支持任意分辨率和多图输入的 decoder-only Transformer(32 层)
  3. Mixture of LoRA Experts:在每层 Transformer block 的 FFN 上构建 MoE
  4. 动作输出:12 维离散化机器人指令,经 action de-tokenizer 解码

动作空间

[vx,vy,ωz,θ1,θ2,θ3,f,hz,ϕ,sy,hzf,T]

分别对应:三轴速度、三个步态参数、频率、机身高度、俯仰角、足宽、足高、终止信号。

3.2 Mixture of LoRA Experts

核心思想:冻结原始 MLLM 参数,在每层 FFN 上叠加多个 LoRA adapter 作为不同专家

每个专家 Ek 由共享 FFN 权重 + 专属 LoRA adapter 组成:

Ek(x)=(Wdown+WdownLoRAk)f((Wup+WupLoRAk)x)

其中 Wdown,Wup 是所有专家共享的原始 FFN 权重(冻结),WLoRAk 是第 k 个专家独有的低秩适配器(可训练)。

设计优势:

  • 参数效率:相比复制整个 FFN 做 MoE(如 MoE-LLaVA),LoRA experts 只增加极少量参数
  • 任务路由:router 根据 token 内容将不同任务(locomotion、navigation、manipulation)路由到擅长的专家
  • 注意力层 LoRA:每个 decoder 层的 self-attention 模块也加入单个 LoRA adapter

3.3 训练目标

MDP 结构分析

论文识别出四个关键结构性质,论证了为何离线 RL 优于 IL:

  1. Horizon-independent returns:奖励仅在任务成功时为 1,其余为 0
  2. Limited critical points:轨迹的成败仅取决于少数关键状态(如蹲下钻障碍、将物体倒入容器),大部分状态的动作空间较宽容
  3. Long-horizon data:轨迹较长
  4. Distribution shifts:离线数据与在线部署的分布差异

这些性质意味着:在非关键状态上,策略有较大的探索自由度。离线 RL 能快速收敛到"足够好"的动作,而 IL 只能盲目模仿数据分布。

RL 损失

LRL=12EsD,aπβ[(Q(s,a)BQk(s,a))2]+α12EsD,aπ~β[(Q(s,a)0)2]
  • 第一项:标准 Bellman 误差,在数据集内的 state-action pair 上拟合 Q 值
  • 第二项:保守正则项,将不在行为策略分布内的动作的 Q 值压低到 0,防止 OOD 过估计
  • π~β(a|s)=1Z(s)(1πβ(a|s)) 是行为策略的"互补分布",即低概率动作的分布
  • α=0.5 控制保守强度

MoE 负载均衡损失

LMoE=1Nk=1NfkPk

其中 fk 是分配给第 k 个专家的 token 比例,Pk 是 router 分配给第 k 个专家的概率均值。这个辅助损失鼓励各专家负载均匀。

总损失

L=LRL+βLMoE,α=0.5,β=0.002

四、实验

4.1 实验设置

  • 仿真:NVIDIA Isaac Gym 并行仿真
  • 真实机器人:Unitree Go2 四足机器人,RealSense D435 前置摄像头
  • 低层控制器:Walk-These-Ways RL 策略,接收 MoRE 输出的 12 维高层指令生成关节动作
  • 数据
    • 专家数据:6 类任务,共 1,822,405 条(来自 QUARD 人类演示)
    • 次优数据:4 类任务,共 440,732 条(来自 QUARD-Auto 自主收集)
  • 训练:8 × A100 GPU,专家数据训练约 100 小时,混合数据训练约 125 小时

4.2 6 任务成功率

难度任务CLIP (86M)VC-1 (307M)QUART (8B)MoRE (9.82B)
EasyDistinguish0.440.460.660.82
EasyGo to0.430.430.600.80
MediumGo avoid0.450.450.530.59
MediumGo through0.190.310.410.57
HardCrawl000.320.49
HardUnload000.120.33
Average0.250.280.440.60

MoRE 在所有任务上均超越基线,平均成功率从 44%(QUART)提升到 60%,提升 36%。尤其在困难任务(Crawl、Unload)上提升显著,说明 MoE + RL 的组合对需要全身协调的复杂技能尤为有效。

4.3 消融实验

变体是否使用次优数据Average
QUART (baseline)N0.44
w/o RL(纯 IL)N0.51
w/o MoE(无专家混合)Y0.48
w/o S-Data(无次优数据)N0.56
MoRE (full)Y0.60

三个关键发现:

  1. RL vs IL(w/o RL vs MoRE):即使仅用专家数据,RL 目标也优于 IL(0.51 vs 0.44,对比 QUART),因为 RL 能从奖励信号中学到"好的选择",而非盲目模仿
  2. MoE 的作用(w/o MoE):去掉 MoE 后成功率从 0.60 降至 0.48,说明多专家路由对多任务学习至关重要
  3. 次优数据的价值(w/o S-Data):加入次优数据后从 0.56 提升到 0.60,但在 Go avoid 任务上反而下降,因为稀疏奖励使得从失败数据中学习该任务较困难

4.4 真实世界实验

在小规模真实数据上微调后,MoRE 成功完成了 Go to、Crawl、Unload 三类任务。尽管真实数据只包含"Go to the colored ball"和"Distinguish the letter"等简单场景,模型仍能泛化到"Go to the computer"等未见指令,展示了 MLLM 常识知识的迁移能力。


五、局限性与未来方向

  1. 仅限四足:方法专门针对四足机器人设计,12 维动作空间绑定到特定步态控制器,未验证对操纵臂等其他构型的泛化
  2. 离线 RL 而非在线:依赖预收集数据,无法通过在线交互持续改进;结合在线 RL 可能进一步提升
  3. 稀疏奖励局限:消融实验中 Go avoid 任务在加入次优数据后反而下降,暴露了稀疏奖励 + 离线 RL 的学习困难
  4. MoE 路由未充分分析:论文未深入分析不同任务的 token 实际被路由到哪些专家,以及专家是否真正实现了功能分化
  5. 真实世界评估不充分:仅展示了定性轨迹,缺少定量成功率统计

六、个人思考

6.1 与项目中其他论文的联系

本文与项目已有笔记的关系:

  • RLVLA:同样验证了 RL 优于 IL 的结论,但 RLVLA 使用在线 PPO 在操纵任务上做系统性泛化分析,而 MoRE 使用离线 Q-learning 在四足任务上验证。两者互补证实了"RL 从奖励中学习比纯模仿更强"这一结论
  • Q-Transformer:MoRE 的自回归 Q-learning 直接来自 Q-Transformer (Chebotar et al., 2023),核心训练目标一致,MoRE 的贡献在于将其扩展到 MoE 架构的大规模 VLA
  • RPD:RPD 将 VLA 知识蒸馏为小型 RL 专家,MoRE 则在 VLA 内部直接做 RL 训练。两者代表了"VLA+RL"的两种路线——内化 vs 外化
  • GR-RL:同样研究通用 VLA 如何在特定技能上精进,GR-RL 用多阶段流水线(数据过滤 + 在线 RL),MoRE 用 MoE 路由 + 离线 RL,思路不同但目标一致

6.2 MoE 用于 VLA 的独特价值

MoRE 是首个将 MoE 架构应用于端到端 VLA 模型的工作。其核心洞察:不同机器人技能之间的差异足够大,以至于单一参数集难以同时适配。导航需要空间推理,操纵需要精细运动控制,步态调整需要动力学理解——这些能力自然适合由不同专家处理。

相比 MoE-LLaVA 等 VQA 领域的工作,MoRE 的 LoRA-based experts 更加参数高效(共享 FFN 权重,只增加低秩差异),这对机器人部署的内存约束很重要。

6.3 离线 RL 的 MDP 结构论证

论文对 MDP 结构性质的分析(horizon-independent returns、limited critical points 等)是一个值得关注的贡献。它提供了一个"何时离线 RL 优于 IL"的判断框架:

  • 如果奖励稀疏且只在终点给出 → horizon-independent returns
  • 如果大部分状态有多个"够好"的动作 → 离线 RL 容易学到
  • 如果轨迹很长 → IL 的复合误差更严重

这个分析框架可以指导其他机器人任务在 IL 和 RL 之间的选择。

6.4 从四足到通用

MoRE 目前绑定在四足 + walk-these-ways 控制器的框架中。一个自然的扩展方向是将 MoE 路由 + 离线 RL 的组合推广到操纵臂等构型。特别是在异构数据训练(如 π₀.₅ 的跨构型训练)场景中,MoE 路由可能发挥更大价值——不同构型的 token 自然路由到不同专家。


参考

  • RLVLA (Yi et al., 2025) — 系统性实证:RL 在语义和执行维度显著提升 VLA 泛化
  • RPD (Li et al., 2025) — PPO + MSE 蒸馏将 VLA 通才知识提炼为紧凑 RL 专家
  • GR-RL (2025) — 多阶段流水线特化通才 VLA 为精密操作专家
  • Q-Transformer (Chebotar et al., 2023) — 自回归离散 Q-learning 的源头
  • QUART (Ding et al., 2024) — 本文的四足 VLA 基线