BridgeVLA:输入-输出对齐的高效 3D 操作学习
论文:BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
作者:Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
机构:中科院自动化所(NLPR)、字节跳动 Seed、FiveAges、南京大学
发布时间:2025年6月
发表会议:NeurIPS 2025
一句话总结
BridgeVLA 通过将 3D 点云正交投影为多视图 2D 图像作为输入、预测 2D 热力图作为动作输出,在统一的 2D 空间中对齐预训练和微调的输入-输出格式,实现了极高的样本效率(3 条轨迹即达 95.4%),RLBench 88.2%、COLOSSEUM 64.0% 均为 SOTA。
二、问题与动机
2.1 当前 3D VLA 的困境
利用预训练 VLM 构建 VLA 模型已是主流范式,但大多数 VLA 仅使用 2D 图像输入,缺乏 3D 空间结构先验,导致数据效率低——通常需要数百条轨迹才能学好一个任务。
另一方面,3D 机器人策略(如 PerAct、RVT-2)利用点云/体素输入的空间结构,展现了优异的样本效率。但它们无法利用 VLM 的广泛预训练知识。
核心问题:能否构建一个统一的 3D VLA 模型,同时兼具 VLA 的有效性和 3D 策略的高效性?
2.2 现有 3D VLA 的缺陷
已有的 3D VLA 方法(如 3D-VLA、SpatialVLA、PointVLA)存在两个根本性问题:
- 动作表示缺乏空间结构:将动作转换为无空间结构的 token 序列,用 next-token prediction 预测,无法利用 3D 结构先验
- 输入分布偏移严重:将 3D 信息注入到 VLM 中(如 Ego3D 位置编码),改变了 VLM 预训练时见过的输入特征分布,导致预训练知识退化
2.3 BridgeVLA 的核心思路
BridgeVLA 提出了一个关键的设计哲学——在统一的 2D 图像空间中对齐输入和输出:
- 输入对齐:将 3D 点云通过正交投影转换为 2D 图像,与 VLM 预训练的 2D 图像输入格式一致
- 输出对齐:预测 2D 热力图来估计平移动作,热力图与输入图像共享相同的空间分辨率和结构
- 预训练-微调对齐:引入 2D 热力图预训练阶段,让 VLM 在微调前就具备预测热力图的能力
三、预备知识
3.1 Keyframe-based 操作策略
BridgeVLA 采用关键帧策略:预测下一个关键帧的末端执行器位姿
3.2 正交投影(Orthographic Projection)
将 3D 点云从三个正交视角(俯视 top、正面 front、右侧 right)投影为 2D 图像。这是 RVT/RVT-2 系列引入的方法,优点在于:
- 避免直接处理 3D 数据的高计算开销
- 三个视图完整覆盖 3D 空间信息
- 投影图像格式与 VLM 预训练图像一致
3.3 热力图动作预测
不同于直接回归 3D 坐标,热力图方法通过分类的方式预测空间位置:
- 对每个正交视图输出一张概率热力图
- 将三个视图的热力图反投影到 3D 工作空间的均匀网格上
- 选择得分最高的 3D 点作为末端执行器的目标平移
四、核心方法
4.1 整体架构
BridgeVLA 采用两阶段训练流水线:
- 2D 热力图预训练:在目标检测数据集上训练 VLM 预测 2D 热力图
- 3D 动作微调:在机器人操作数据上微调,输入点云正交投影图像,输出热力图+旋转+夹爪+碰撞
VLM 骨架选用 PaliGemma(SigLIP 视觉编码器 + Gemma Transformer),SigLIP 和语言 token embedding 在整个训练过程中冻结。
4.2 2D 热力图预训练
动机
VLM 原本预训练的目标是预测 token 序列(无空间结构),而下游策略学习需要预测 2D 热力图。为弥合这一能力差距,需要一个中间预训练阶段。
预训练数据
使用 RoboPoint 的 120K 目标检测子集。对每张图像,从目标物体的 bounding box 中心构造 ground-truth 热力图。
热力图构造
对第
其中
热力图预测流程
- 将图像 + 目标物体文本描述输入 VLM
- 利用 PaliGemma 的双向注意力:图像 token 与 prefix text token 之间使用双向注意力(而非因果注意力),让图像 token 可以融合文本信息
- 将输出的图像 token 按 patch 位置重排为空间特征网格
- 通过凸上采样模块(convex upsampling,学习像素级插值权重,比双线性插值更精细)将特征网格上采样到原图分辨率的热力图
- 用交叉熵损失监督
预训练的可扩展性
这种方法本质上将 VLM 训练为"给定文本描述,在图像中定位目标区域"。原则上可以利用任何可以转化为热力图预测的视觉-语言数据集(关键点检测、语义分割等)。
4.3 3D 动作微调
输入处理
- 从标定 RGB-D 相机重建场景点云
- 从三个正交视角(top、front、right)渲染投影图像
- 投影图像 + 语言指令输入预训练好的 VLM
关键设计:微调时不向 VLM 前向传播注入任何额外信息(如机器人状态),以最小化预训练与微调之间的分布偏移。
平移动作预测
VLM 为三个视图各生成一张热力图。将热力图反投影到 3D 工作空间的均匀网格:对每个 3D 网格点,将其投影到三个视图上,取对应热力图值的均值作为该 3D 点的得分。得分最高的 3D 点即为末端执行器的目标平移位置。
旋转/夹爪/碰撞预测
旋转用 Euler 角表示,每轴离散化为 72 个 bin。预测时整合全局和局部特征:
- 全局特征:对每个视图的输出 token 做 max-pooling,得到 3 个 token
- 局部特征:从每个视图热力图峰值位置提取 token,得到 3 个 token
- 6 个 token 拼接后通过 MLP 预测旋转(交叉熵损失)、夹爪(二元交叉熵)和碰撞标志(二元交叉熵)
Coarse-to-Fine 策略
采用粗到精的两阶段推理:
- 第一轮:在完整点云上预测,得到粗略平移位置
- 第二轮:以粗略位置为中心裁剪并放大点云区域,再次推理得到精细动作
训练损失
训练时对点云和 ground-truth 动作联合施加随机刚体变换,增强几何鲁棒性。
五、实验结果
5.1 RLBench(18 任务,100 条演示/任务)
| 方法 | 类型 | Avg. SR (%) | Avg. Rank |
|---|---|---|---|
| PerAct | 3D 体素 | 49.4 | 7.0 |
| Act3D | 3D 点云 | 65.0 | 4.89 |
| RVT | 3D 正交投影 | 62.9 | 4.92 |
| 3D Diffuser Actor | 3D 扩散 | 81.3 | 2.67 |
| RVT-2 | 3D 正交投影 | 81.4 | 2.75 |
| BridgeVLA | 3D VLA | 88.2 | 2.03 |
亮点任务:
- Insert Peg:88.0% vs RVT-2 的 40.0%(+48%),需要极高精度的对齐
- Sort Shape:60.8% vs RVT-2 的 35.0%(+25.8%),需要精确的形状匹配
- Stack Cups:81.6% vs RVT-2 的 69.0%,18 个任务中 10 个 SOTA
5.2 COLOSSEUM(泛化鲁棒性,12 类扰动)
| 方法 | Avg. SR (%) | Avg. Rank |
|---|---|---|
| PerAct | 27.9 | 3.71 |
| RVT | 35.4 | 3.28 |
| RVT-2 | 56.7 | 1.92 |
| BridgeVLA | 64.0 | 1.07 |
14 类扰动评估中 13 类排名第一。在光照变化(69.7% vs 58.0%)、桌面颜色(75.7% vs 62.6%)和桌面纹理(71.3% vs 56.6%)上优势尤为明显。
5.3 GemBench(层次化泛化基准)
| 方法 | Average | L1(新放置) | L2(新刚体) | L3(新关节体) | L4(长时域) |
|---|---|---|---|---|---|
| RVT-2 | 44.0 | 89.1 | 51.0 | 36.0 | 0.0 |
| 3D-LOTUS++ | 48.0 | 68.7 | 64.5 | 41.5 | 17.4 |
| BridgeVLA | 50.0 | 91.1 | 65.0 | 43.8 | 0.0 |
L2(新物体泛化)和 L3(新关节物体泛化)上均为 SOTA,但 L4(长时域多步任务)上与大多数方法一样接近 0%。
5.4 真实机器人实验
设备:Franka Research 3 + ZED 2i 深度相机,13 个任务,每任务仅 10 条轨迹训练。
| 方法 | Basic | 训练数据量 |
|---|---|---|
| SpatialVLA (50 traj) | 28.5% | 50 条/任务 |
| π₀ | 3.8% | 10 条/任务 |
| ACT | 22.3% | 10 条/任务 |
| RVT-2 | 90.0% | 10 条/任务 |
| BridgeVLA | 96.9% | 10 条/任务 |
| BridgeVLA | 95.4% | 仅 3 条/任务 |
7 个评估场景(Basic、Distractor、Lighting、Background、Height、Combination、Category)中 BridgeVLA 全部优于 RVT-2,平均领先 32%。在 Lighting 和 Combination 设置下优势最大。
5.5 关键消融实验
| 变体 | RLBench Avg. SR |
|---|---|
| BridgeVLA w/o heatmap(直接回归位置) | 31.4%(-56.8) |
| BridgeVLA w/ pos(注入 3D 位置特征) | 56.2%(-32.0) |
| BridgeVLA(完整) | 88.2% |
三个消融回答了三个设计问题:
- 是否需要热力图中间表示? 必须。去掉热力图改用直接回归,性能暴跌至 31.4%。原因:热力图提供更稠密的监督信号、引入空间先验、且与输入图像共享空间结构
- 是否需要避免 3D 位置输入? 必须。注入 per-pixel 3D 位置改变了 VLM 预训练的特征分布,性能从 88.2% 降至 56.2%
- 是否需要热力图预训练? 真实世界实验证实必须。无预训练的版本在 Combination 和 Category 泛化场景下甚至不如 RVT-2
六、训练与推理细节
训练配置
| 预训练 | RLBench | COLOSSEUM | 真实世界 | |
|---|---|---|---|---|
| 学习率 | 5e-5 | 8e-5 | 8e-5 | 2e-5 |
| 优化器 | AdamW | AdamW | AdamW | AdamW |
| Batch size | 384 | 192 | 192 | 192 |
| 资源 | 8×A100, 2h | 48×H100, 20h | 48×H100, 20h | 8×A100, 1.5h |
推理速度
RTX 4090 上端到端推理时间为 0.21 秒(从点云输入到动作输出)。
七、局限性与未来方向
- 长时域任务能力不足:在 GemBench L4(多子任务组合)上接近 0%,与大多数 3D 方法一样。未来计划引入 LLM 进行任务分解
- 正交投影的遮挡问题:在 Place Cups 等任务上表现最差,因为目标关键点在所有正交视图中都被遮挡。计划探索动态视角选择
- Category 泛化有限:虽然预训练知识保留(微调后仍能准确预测预训练样本的热力图),但预训练图像(第三人称视角)与正交投影图像差异大,且预训练任务(定位物体)与操作任务(预测不对应物体的关键点)之间存在语义鸿沟
- 动作解码方式受限:仅使用分类式热力图预测,计划引入更具表达力的方法(如扩散策略)
八、个人思考
8.1 输入-输出对齐的设计哲学
BridgeVLA 最核心的 insight 是:构建 3D VLA 时,保持与 VLM 预训练格式的对齐比注入更多 3D 信息更重要。这与 SF 的隐式空间对齐思路异曲同工——SF 也避免直接输入 3D 数据,而是通过中间层表征监督来获取 3D 能力。两者都说明了一个规律:保护 VLM 预训练表征不被破坏,是 VLA 成功的关键前提。
8.2 与 TGM-VLA 的互补性
TGM-VLA 同样基于正交投影范式(RVT-2 的后继),在 RLBench 达到 90.5%,略高于 BridgeVLA 的 88.2%。但 TGM-VLA 不使用 VLM 骨架,因此泛化能力受限。BridgeVLA 则通过 VLM 骨架在 COLOSSEUM 泛化场景(64.0% vs TGM-VLA 的 68.8%)和真实世界(96.9%)上表现更强。两者说明正交投影已成为 3D VLA 的标配输入表示,而 VLM 骨架带来的是泛化性而非单纯的性能提升。
8.3 热力图预训练的范式价值
BridgeVLA 的热力图预训练本质上是让 VLM "学会指哪打哪"——从文本描述到图像定位。这与传统的 visual grounding 任务一脉相承,但用热力图替代了 bounding box,更适合下游策略学习。这提示了一个有趣的研究方向:能否设计更多样化的中间预训练任务(关键点检测、语义分割等)来进一步增强 3D VLA 的泛化能力?
8.4 样本效率的上限探索
BridgeVLA 用 3 条轨迹达到 95.4% 的成功率,而 π₀ 在 10 条轨迹下仅 3.8%。这个巨大的差距源于两个因素:(1) 3D 结构先验(正交投影 + 热力图)天然适合 keyframe-based 操作,(2) 输入-输出对齐保护了 VLM 的定位能力。但 π₀ 擅长的是连续灵巧操作(action chunk + flow matching),两者面向不同的任务类型。
参考
- RVT-2 — 正交投影 + Coarse-to-Fine 的 3D 操作策略,BridgeVLA 的直接竞争对手
- PaliGemma — BridgeVLA 使用的 VLM 骨架
- RoboPoint — 提供热力图预训练数据
- SpatialVLA — 另一种 3D VLA 方法,通过 Ego3D 位置编码注入 3D 信息