GR-3:字节跳动大规模双臂移动 VLA——VL 协同训练 + 人类轨迹少样本适配 + 灵巧长时域操作
论文:GR-3 Technical Report
机构:ByteDance Seed
发布时间:2025 年 7 月
一句话总结
GR-3 是一个 4B 参数的 VLA 模型,基于 Qwen2.5-VL + Action DiT 的 Mixture-of-Transformers 架构,通过机器人轨迹 + 视觉-语言数据协同训练获得强泛化能力,并可用少量 VR 采集的人类轨迹快速适配新场景,在泛化抓放、长时域餐桌收拾和灵巧衣物操作三大真实世界任务上全面超越 π₀。
一、问题与动机
1.1 VLA 模型的三大挑战
当前 VLA 模型面临三个未解决的关键挑战:
- 指令跟随泛化不足:大多数 VLA 模型只能处理训练数据中出现过的指令和物体类别,面对涉及大小关系("最大的物体")、空间关系("可乐旁边的雪碧")、常识知识("海洋动物")等抽象概念的 OOD 指令时表现极差
- 数据采集成本高昂:机器人遥操作采集轨迹耗时且昂贵,适配新场景需要大量演示数据
- 长时域灵巧任务的鲁棒性差:在需要数十步子任务的复杂操作中,累积误差导致策略频繁失败,尤其在操作可变形物体(如衣物)时
1.2 现有方法为何不够
- π₀:虽然通过大规模跨构型预训练获得了广泛能力,但其语言理解主要来自 PaliGemma(3B),在 OOD 指令跟随上表现有限。此外,π₀ 的预训练依赖大规模跨构型机器人数据,但并未充分利用网络规模的视觉-语言数据来增强泛化
- RT-2:最早展示了 VL 协同训练的价值,但仅基于自回归动作离散化,不支持 action chunk 和高频控制
- 数据效率:现有 VLA 适配新场景通常需要大量机器人遥操作数据(数十小时),从人类演示数据中学习的能力有限
1.3 GR-3 的核心思路
GR-3 从三个维度系统性地解决上述挑战:
- VL 协同训练:在机器人轨迹和大规模视觉-语言数据上联合训练,将 VLM 的丰富语义知识迁移到动作预测中,实现零样本泛化到未见物体和抽象概念指令
- 人类轨迹少样本适配:通过 VR 设备快速采集人类手部轨迹(每小时 450 条 vs 遥操作每小时 250 条),仅需每类物体 10 条人类轨迹即可显著提升性能
- 架构与训练细节优化:Task Status 辅助监督强化指令跟随、DiT 内 RMSNorm 提升训练稳定性和语言条件化能力
二、预备知识
2.1 Mixture-of-Transformers (MoT)
Mixture-of-Transformers 是一种在同一 Transformer 中为不同模态使用不同权重的架构。与标准 Transformer 所有 token 共享全部参数不同,MoT 为每种模态分配独立的 FFN 参数,但在 self-attention 层中共享 key/value,使不同模态能通过注意力机制交互。
这种设计的核心优势在于:
- 保护预训练知识:视觉-语言 token 走 VLM 的原始权重,避免机器人特有数据干扰预训练表征
- 专属容量:动作预测有独立的 FFN 层,不与 VL 任务竞争参数容量
GR-3 正是基于此架构,VLM 骨架处理图像和语言,Action DiT 专门负责动作生成,二者通过 KV cache 交互。
2.2 Flow Matching 动作预测
GR-3 沿用 π₀ 的 flow matching 方案进行动作预测。给定真实动作
训练损失为速度场的 MSE:
其中
三、核心方法
3.1 模型架构
GR-3 采用 Mixture-of-Transformers 架构,总计 4B 参数,由两个核心组件组成:
| 组件 | 功能 | 基座模型 | 处理内容 |
|---|---|---|---|
| VLM 骨架 | 视觉-语言理解 | Qwen2.5-VL-3B-Instruct | 多视角图像 + 语言指令 |
| Action DiT | 动作预测 | 随机初始化 | 机器人状态 + 噪声动作 chunk |
关键架构设计:
- KV cache 交互:Action DiT 的 flow 预测条件化于当前机器人状态
和 VLM 骨架输出的 KV cache。为加速推理,Action DiT 仅使用 VLM 后半部分层的 KV cache - 层数设计:Action DiT 的层数为 VLM 骨架的一半
- 因果注意力:Action DiT 内部对动作 chunk 的
个 token 使用因果注意力掩码,建模动作序列内的时序依赖 - AdaLN 时间步注入:flow matching 时间步
通过 Adaptive Layer Norm 注入 DiT 各层
3.2 训练稳定性:DiT 内 RMSNorm
在早期探索中,团队观察到训练过程频繁出现不稳定。受 QK-Norm 启发,GR-3 在 DiT block 的 Attention 和 FFN 的线性层之后额外添加 RMSNorm:
这个看似简单的设计带来两大收益:
- 训练稳定性:彻底消除训练过程中的发散问题
- 指令跟随能力:实验表明移除 RMSNorm 后指令跟随性能大幅下降(详见消融实验),说明归一化帮助 DiT 更好地利用 VLM 传递的语言条件信息
3.3 Task Status 辅助监督
先前工作指出,策略可能利用多视角的虚假相关性来预测动作,而非真正关注语言条件。GR-3 引入 Task Status 作为额外的动作维度进行辅助监督:
| 状态 | 编码值 | 含义 |
|---|---|---|
| Ongoing | 0 | 任务进行中 |
| Terminated | 1 | 任务已完成 |
| Invalid | -1 | 指令无效(当前场景中不存在目标物体) |
训练策略:随机将正确的语言指令替换为无效指令(如桌上没有刀时给出"把刀放进篮子"),此时仅监督 Task Status 维度预测 Invalid,其他动作维度不施加损失。
这一设计强制 Action DiT 关注语言指令并判断任务可行性,而非仅依赖视觉捷径。在真实部署中,策略能正确拒绝无效指令(10 秒内不动作),避免执行错误任务。
3.4 三阶段训练配方
阶段一:机器人轨迹 + VL 数据协同训练
GR-3 同时在两种数据上训练(Fig. 3):
- 机器人轨迹数据:训练 VLM 骨架 + Action DiT,使用 flow matching 损失
- 视觉-语言数据:仅训练 VLM 骨架,使用 next-token prediction 损失
两种数据在 mini-batch 间动态混合,权重相等。协同训练的总损失为:
VL 数据集涵盖四类任务:图像描述(Image Caption)、视觉问答(VQA)、图像定位(Image Grounding)、交叉引用图像描述(Grounded Image Caption)。经过过滤和重标注流水线提升质量。
训练加速:借鉴 MAR 的做法,在 VLM 骨架的单次前向传播中同时计算多个 flow matching 时间步的损失,提升训练效率。
VL 协同训练的关键价值:
- 保持 VLM 预训练的视觉-语言能力不退化
- 使 Action DiT 能利用 VLM 的语义知识进行动作预测
- 实现对未见物体和抽象概念指令的零样本泛化
阶段二:加入人类轨迹数据的继续训练
在阶段一的 checkpoint 基础上,进一步加入人类轨迹数据,对三种数据进行联合训练。
人类轨迹的采集与处理:
- 使用 PICO 4 Ultra Enterprise VR 头显进行手部追踪
- 采集速度约 450 条/小时,远快于遥操作的 250 条/小时
- 数据仅包含第一人称视频和手部轨迹,没有手臂关节状态和夹爪状态
- 缺失的腕部视角用空白图像填充,仅训练手部轨迹部分
数据采集调度器
为最大化数据多样性,GR-3 开发了一套数据采集调度器,在每条轨迹采集前自动生成配置:
- 执行的动作类型
- 物体组合
- 背景场景
采集后还会进行质量检查,过滤无效和低质量数据。
3.5 硬件平台:ByteMini
GR-3 部署在 ByteMini 双臂移动机器人上:
| 规格 | 参数 |
|---|---|
| 总自由度 | 22 DoF |
| 手臂 | 2 × 7-DoF,球形腕关节设计 |
| 夹爪 | 2 × 1-DoF |
| 升降机构 | 1-DoF |
| 移动底盘 | 3-DoF 全向平台 |
| 相机 | 头部 RGBD + 2 × 腕部 RGBD |
| 续航 | 双锂电池 > 10 小时 |
球形腕关节设计克服了传统 SRS 构型手臂的局限,使两只手臂能在机器人胸前区域执行精细双手协作操作。
四、实验结果
GR-3 在三大真实世界任务上进行了全面评估,对比基线为 π₀(使用官方开源代码和预训练权重微调)。
4.1 泛化抓放(Generalizable Pick-and-Place)
数据:35k 机器人轨迹,101 种物体,总计 69 小时。
四种评估设置:
| 设置 | 描述 | π₀ IF/成功率 | GR-3 IF/成功率 |
|---|---|---|---|
| Basic | 训练环境 + 训练物体 | ~80% / ~75% | ~93% / ~85% |
| Unseen Env | 4 种未见环境 | ~75% / ~65% | ~90% / ~80% |
| Unseen Instr | 抽象概念指令 | ~45% / ~40% | ~80% / ~77.1% |
| Unseen Obj | 45 种未见物体 | ~55% / ~40% | ~65% / ~57.8% |
关键发现:
- VL 协同训练是泛化的关键:GR-3 在 Unseen Instructions 和 Unseen Objects 上大幅超越 π₀(成功率从 40% 提升到 77.1% 和 57.8%)。消融实验表明 GR-3 w/o Co-Training 在这两个设置上反而不如 π₀,说明泛化主要来自 VL 协同训练而非模型架构本身
- 协同训练不损害基础性能:在 Basic 和 Unseen Env 设置上,GR-3 和 GR-3 w/o Co-Training 表现相当,说明 VL 协同训练不会干扰已见物体的性能
- 抽象概念理解:GR-3 能理解"把可乐旁边的雪碧放进纸箱"、"把最大的物体放进纸箱"、"把海洋动物放进纸箱"等训练数据中从未出现的指令
人类轨迹少样本适配:
| 少样本设置 | 未见物体 IF 率 | 未见物体成功率 |
|---|---|---|
| 0-shot(基线) | ~65% | 57.8% |
| 1-shot | ~70% | ~65% |
| 5-shot | ~75% | ~75% |
| 10-shot | ~85% | 86.7% |
仅需每类物体 10 条人类轨迹(总计 450 条,约 30 分钟),未见物体成功率从 57.8% 提升到 86.7%,且已见物体性能不下降。
4.2 长时域餐桌收拾(Table Bussing)
数据:约 101 小时机器人轨迹。任务要求机器人清理桌面:打包食物、收拾餐具、丢弃垃圾,需要移动底盘跨区域操作。
Flat 设置(单条指令完成全部子任务):
| 方法 | 平均任务进度 |
|---|---|
| π₀ | ~70% |
| GR-3 w/o Norm | ~75% |
| GR-3 w/o TS | ~80% |
| GR-3 | ~85% |
IF 设置(分步子任务指令,6 种测试集):
| 方法 | 平均子任务成功率 |
|---|---|
| π₀ | 53.8% |
| GR-3 w/o Norm | ~60% |
| GR-3 w/o TS | ~85% |
| GR-3 | 97.5% |
关键发现:
- 指令跟随差距巨大:π₀ 虽能完成长时域操作,但在 IF 设置下仅 53.8%,无法区分叉子和勺子,在 Novel Destinations 中总是把物体放到训练时的容器而非指令指定的容器。GR-3 在所有 6 个测试集上都能严格跟随指令,达到 97.5%
- RMSNorm 至关重要:移除 RMSNorm 后 IF 性能大幅下降,模型无法泛化到新目标位置,证实 RMSNorm 对语言条件化的关键作用
- Task Status 有效:移除 Task Status 后 IF 能力也下降,尤其在 Invalid Tasks 设置中无法正确拒绝无效指令
- 无效指令拒绝:GR-3 能在场景中不存在目标物体时正确拒绝操作(10 秒内不动作)
4.3 灵巧衣物操作(Dexterous Cloth Manipulation)
数据:116 小时机器人轨迹。任务要求将衣物挂到晾衣架上:拿起衣架 → 将右肩挂上 → 将左肩挂上 → 挂到晾衣杆。
| 设置 | π₀ 任务进度 | GR-3 任务进度 |
|---|---|---|
| Basic(6 种训练衣物) | ~65% | 86.7% |
| Position(旋转/褶皱摆放) | ~55% | 83.9% |
| Unseen Instances(4 种未见衣物) | ~50% | 75.8% |
关键发现:
- 灵巧操作鲁棒性:GR-3 在 Basic 设置上达到 86.7%,且 Position 变化仅损失 2.8pp,展示了对布局变化的强鲁棒性
- 泛化到未见衣物:训练数据全是长袖衣物,但 GR-3 能泛化到短袖衣物,达到 75.8%
- 最大挑战:Sankey 图分析显示,最难的步骤是"在右肩已挂的情况下挂左肩"——需要翻出常被折叠遮挡的左领口,同时保持衣架不滑落
五、局限性与未来方向
- OOD 指令仍有错误:尽管泛化能力大幅提升,GR-3 在涉及全新概念和未见形状物体的指令上仍会犯错,需要进一步扩大模型和数据规模
- 纯模仿学习的局限:GR-3 基于纯模仿学习,在 rollout 中遇到 OOD 状态时无法自主恢复。未来计划引入强化学习(RL)来增强鲁棒性和灵巧性
- 未探索跨构型预训练:与 π₀ 不同,GR-3 仅在单一构型(ByteMini)上训练,未利用跨构型数据的潜在正迁移
六、个人思考
6.1 与项目中相关论文的对比
| 维度 | GR-3 | π₀ | π₀.₅ |
|---|---|---|---|
| VLM 骨架 | Qwen2.5-VL-3B | PaliGemma 3B | PaliGemma 3B |
| 动作生成 | Flow Matching DiT | Flow Matching Action Expert | Flow Matching Action Expert |
| 总参数 | 4B | 3.3B | 3.3B |
| VL 协同训练 | 有(全训练期) | 无 | 有(Web 数据) |
| 人类轨迹学习 | 有(VR 手部追踪) | 无 | 有(YouTube 视频) |
| 跨构型预训练 | 无(单构型) | 有(7 种构型) | 有(多种构型) |
| 训练数据规模 | 35k-116 小时/任务 | ~10,000 小时 | 更大 |
| 指令跟随机制 | Task Status + RMSNorm | 无特殊设计 | 分层推理 |
6.2 VL 协同训练的实验证据是这篇论文最有价值的部分
GR-3 提供了关于 VL 协同训练的清晰消融证据:
- GR-3 w/o Co-Training 在 OOD 设置上不如 π₀(Fig. 7a),说明仅换一个更强的 VLM 骨架(Qwen2.5-VL vs PaliGemma)是不够的——VLM 的知识必须通过协同训练才能有效迁移到动作预测中
- 这个发现解释了为什么 RT-2 需要协同训练、为什么 π₀.₅ 也采用了异构数据协同训练
6.3 Task Status 是一个精巧的设计
通过引入 Invalid 状态和随机替换指令的训练策略,GR-3 迫使模型建立"指令 → 观测 → 可行性判断"的因果链,而非依赖视觉捷径。这比简单的数据增强更深层——它改变了模型的推理路径。这一设计在 IF 设置中带来的提升(53.8% → 97.5% vs π₀)是巨大的。
6.4 人类轨迹适配是一个有前景的方向
GR-3 展示了一种极具成本效益的适配路径:
- VR 采集效率是遥操作的 1.8 倍
- 每类物体仅需 10 条人类轨迹
- 跨构型(人手 → 机器人)迁移依然有效
这与 π₀.₅ 从 YouTube 视频学习的思路互补——π₀.₅ 利用大规模无标注视频进行预训练,GR-3 则用少量有标注的人类轨迹进行高效微调。
6.5 与 π₀ 的公平性讨论
需要注意的是,GR-3 vs π₀ 的比较可能不完全公平:
- GR-3 使用 Qwen2.5-VL-3B(更新、更强的 VLM),π₀ 使用 PaliGemma 3B
- GR-3 使用 VL 协同训练,π₀ 没有
- π₀ 的优势在于跨构型预训练带来的广泛基础能力,这一维度 GR-3 未探索
更准确地说,GR-3 证明的是"VL 协同训练 + 指令跟随强化设计"的组合价值,而非单纯的模型架构优越性。
参考
- π₀:Flow Matching VLA 基础模型,GR-3 的主要对比基线
- π₀.₅:π₀ 的后续,同样探索了异构数据协同训练和分层推理
- RT-2:最早展示 VL 协同微调提升机器人泛化的工作
- Qwen2.5-VL:GR-3 使用的 VLM 骨架
- GR-2:GR-3 的前身,探索了大规模视频生成预训练用于机器人操作