Skip to content

BridgeVLA:输入-输出对齐的高效 3D 操作学习

论文BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

作者:Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan

机构:中科院自动化所(NLPR)、字节跳动 Seed、FiveAges、南京大学

发布时间:2025年6月

🔗 arXiv | 项目主页

发表会议:NeurIPS 2025


一句话总结

BridgeVLA 通过将 3D 点云正交投影为多视图 2D 图像作为输入、预测 2D 热力图作为动作输出,在统一的 2D 空间中对齐预训练和微调的输入-输出格式,实现了极高的样本效率(3 条轨迹即达 95.4%),RLBench 88.2%、COLOSSEUM 64.0% 均为 SOTA。


二、问题与动机

2.1 当前 3D VLA 的困境

利用预训练 VLM 构建 VLA 模型已是主流范式,但大多数 VLA 仅使用 2D 图像输入,缺乏 3D 空间结构先验,导致数据效率低——通常需要数百条轨迹才能学好一个任务。

另一方面,3D 机器人策略(如 PerAct、RVT-2)利用点云/体素输入的空间结构,展现了优异的样本效率。但它们无法利用 VLM 的广泛预训练知识。

核心问题:能否构建一个统一的 3D VLA 模型,同时兼具 VLA 的有效性和 3D 策略的高效性?

2.2 现有 3D VLA 的缺陷

已有的 3D VLA 方法(如 3D-VLA、SpatialVLA、PointVLA)存在两个根本性问题:

  1. 动作表示缺乏空间结构:将动作转换为无空间结构的 token 序列,用 next-token prediction 预测,无法利用 3D 结构先验
  2. 输入分布偏移严重:将 3D 信息注入到 VLM 中(如 Ego3D 位置编码),改变了 VLM 预训练时见过的输入特征分布,导致预训练知识退化

2.3 BridgeVLA 的核心思路

BridgeVLA 提出了一个关键的设计哲学——在统一的 2D 图像空间中对齐输入和输出

  • 输入对齐:将 3D 点云通过正交投影转换为 2D 图像,与 VLM 预训练的 2D 图像输入格式一致
  • 输出对齐:预测 2D 热力图来估计平移动作,热力图与输入图像共享相同的空间分辨率和结构
  • 预训练-微调对齐:引入 2D 热力图预训练阶段,让 VLM 在微调前就具备预测热力图的能力

三、预备知识

3.1 Keyframe-based 操作策略

BridgeVLA 采用关键帧策略:预测下一个关键帧的末端执行器位姿 TSE(3)、夹爪状态 g{0,1} 和碰撞标志 c{0,1},然后由运动规划器(如 RRT-Connect)执行从当前位姿到目标位姿的运动。关键帧通常捕获轨迹中的关键步骤(如抓取、放置时刻)。

3.2 正交投影(Orthographic Projection)

将 3D 点云从三个正交视角(俯视 top、正面 front、右侧 right)投影为 2D 图像。这是 RVT/RVT-2 系列引入的方法,优点在于:

  • 避免直接处理 3D 数据的高计算开销
  • 三个视图完整覆盖 3D 空间信息
  • 投影图像格式与 VLM 预训练图像一致

3.3 热力图动作预测

不同于直接回归 3D 坐标,热力图方法通过分类的方式预测空间位置:

  1. 对每个正交视图输出一张概率热力图
  2. 将三个视图的热力图反投影到 3D 工作空间的均匀网格上
  3. 选择得分最高的 3D 点作为末端执行器的目标平移

四、核心方法

4.1 整体架构

BridgeVLA 采用两阶段训练流水线

  1. 2D 热力图预训练:在目标检测数据集上训练 VLM 预测 2D 热力图
  2. 3D 动作微调:在机器人操作数据上微调,输入点云正交投影图像,输出热力图+旋转+夹爪+碰撞

VLM 骨架选用 PaliGemma(SigLIP 视觉编码器 + Gemma Transformer),SigLIP 和语言 token embedding 在整个训练过程中冻结

4.2 2D 热力图预训练

动机

VLM 原本预训练的目标是预测 token 序列(无空间结构),而下游策略学习需要预测 2D 热力图。为弥合这一能力差距,需要一个中间预训练阶段。

预训练数据

使用 RoboPoint 的 120K 目标检测子集。对每张图像,从目标物体的 bounding box 中心构造 ground-truth 热力图。

热力图构造

对第 i 个物体,以其 bounding box 中心 x^i 为中心构造截断高斯概率图:

Higt(x)={pi(x)if pi(x)pmin0otherwise

其中 pi(x)=exp(xx^i2/2σ2)。多个物体通过平均 + 归一化融合:

Hgt(x)=Havg(x)xΩHavg(x),Havg(x)=1Ni=1NHigt(x)

热力图预测流程

  1. 将图像 + 目标物体文本描述输入 VLM
  2. 利用 PaliGemma 的双向注意力:图像 token 与 prefix text token 之间使用双向注意力(而非因果注意力),让图像 token 可以融合文本信息
  3. 将输出的图像 token 按 patch 位置重排为空间特征网格
  4. 通过凸上采样模块(convex upsampling,学习像素级插值权重,比双线性插值更精细)将特征网格上采样到原图分辨率的热力图
  5. 用交叉熵损失监督

预训练的可扩展性

这种方法本质上将 VLM 训练为"给定文本描述,在图像中定位目标区域"。原则上可以利用任何可以转化为热力图预测的视觉-语言数据集(关键点检测、语义分割等)。

4.3 3D 动作微调

输入处理

  1. 从标定 RGB-D 相机重建场景点云
  2. 从三个正交视角(top、front、right)渲染投影图像
  3. 投影图像 + 语言指令输入预训练好的 VLM

关键设计:微调时不向 VLM 前向传播注入任何额外信息(如机器人状态),以最小化预训练与微调之间的分布偏移。

平移动作预测

VLM 为三个视图各生成一张热力图。将热力图反投影到 3D 工作空间的均匀网格:对每个 3D 网格点,将其投影到三个视图上,取对应热力图值的均值作为该 3D 点的得分。得分最高的 3D 点即为末端执行器的目标平移位置。

旋转/夹爪/碰撞预测

旋转用 Euler 角表示,每轴离散化为 72 个 bin。预测时整合全局和局部特征:

  • 全局特征:对每个视图的输出 token 做 max-pooling,得到 3 个 token
  • 局部特征:从每个视图热力图峰值位置提取 token,得到 3 个 token
  • 6 个 token 拼接后通过 MLP 预测旋转(交叉熵损失)、夹爪(二元交叉熵)和碰撞标志(二元交叉熵)

Coarse-to-Fine 策略

采用粗到精的两阶段推理:

  1. 第一轮:在完整点云上预测,得到粗略平移位置
  2. 第二轮:以粗略位置为中心裁剪并放大点云区域,再次推理得到精细动作

训练损失

L=Ltrans+Lrot+Lgripper+Lcollision

训练时对点云和 ground-truth 动作联合施加随机刚体变换,增强几何鲁棒性。


五、实验结果

5.1 RLBench(18 任务,100 条演示/任务)

方法类型Avg. SR (%)Avg. Rank
PerAct3D 体素49.47.0
Act3D3D 点云65.04.89
RVT3D 正交投影62.94.92
3D Diffuser Actor3D 扩散81.32.67
RVT-23D 正交投影81.42.75
BridgeVLA3D VLA88.22.03

亮点任务:

  • Insert Peg:88.0% vs RVT-2 的 40.0%(+48%),需要极高精度的对齐
  • Sort Shape:60.8% vs RVT-2 的 35.0%(+25.8%),需要精确的形状匹配
  • Stack Cups:81.6% vs RVT-2 的 69.0%,18 个任务中 10 个 SOTA

5.2 COLOSSEUM(泛化鲁棒性,12 类扰动)

方法Avg. SR (%)Avg. Rank
PerAct27.93.71
RVT35.43.28
RVT-256.71.92
BridgeVLA64.01.07

14 类扰动评估中 13 类排名第一。在光照变化(69.7% vs 58.0%)、桌面颜色(75.7% vs 62.6%)和桌面纹理(71.3% vs 56.6%)上优势尤为明显。

5.3 GemBench(层次化泛化基准)

方法AverageL1(新放置)L2(新刚体)L3(新关节体)L4(长时域)
RVT-244.089.151.036.00.0
3D-LOTUS++48.068.764.541.517.4
BridgeVLA50.091.165.043.80.0

L2(新物体泛化)和 L3(新关节物体泛化)上均为 SOTA,但 L4(长时域多步任务)上与大多数方法一样接近 0%。

5.4 真实机器人实验

设备:Franka Research 3 + ZED 2i 深度相机,13 个任务,每任务仅 10 条轨迹训练。

方法Basic训练数据量
SpatialVLA (50 traj)28.5%50 条/任务
π₀3.8%10 条/任务
ACT22.3%10 条/任务
RVT-290.0%10 条/任务
BridgeVLA96.9%10 条/任务
BridgeVLA95.4%仅 3 条/任务

7 个评估场景(Basic、Distractor、Lighting、Background、Height、Combination、Category)中 BridgeVLA 全部优于 RVT-2,平均领先 32%。在 Lighting 和 Combination 设置下优势最大。

5.5 关键消融实验

变体RLBench Avg. SR
BridgeVLA w/o heatmap(直接回归位置)31.4%(-56.8)
BridgeVLA w/ pos(注入 3D 位置特征)56.2%(-32.0)
BridgeVLA(完整)88.2%

三个消融回答了三个设计问题:

  1. 是否需要热力图中间表示? 必须。去掉热力图改用直接回归,性能暴跌至 31.4%。原因:热力图提供更稠密的监督信号、引入空间先验、且与输入图像共享空间结构
  2. 是否需要避免 3D 位置输入? 必须。注入 per-pixel 3D 位置改变了 VLM 预训练的特征分布,性能从 88.2% 降至 56.2%
  3. 是否需要热力图预训练? 真实世界实验证实必须。无预训练的版本在 Combination 和 Category 泛化场景下甚至不如 RVT-2

六、训练与推理细节

训练配置

预训练RLBenchCOLOSSEUM真实世界
学习率5e-58e-58e-52e-5
优化器AdamWAdamWAdamWAdamW
Batch size384192192192
资源8×A100, 2h48×H100, 20h48×H100, 20h8×A100, 1.5h

推理速度

RTX 4090 上端到端推理时间为 0.21 秒(从点云输入到动作输出)。


七、局限性与未来方向

  1. 长时域任务能力不足:在 GemBench L4(多子任务组合)上接近 0%,与大多数 3D 方法一样。未来计划引入 LLM 进行任务分解
  2. 正交投影的遮挡问题:在 Place Cups 等任务上表现最差,因为目标关键点在所有正交视图中都被遮挡。计划探索动态视角选择
  3. Category 泛化有限:虽然预训练知识保留(微调后仍能准确预测预训练样本的热力图),但预训练图像(第三人称视角)与正交投影图像差异大,且预训练任务(定位物体)与操作任务(预测不对应物体的关键点)之间存在语义鸿沟
  4. 动作解码方式受限:仅使用分类式热力图预测,计划引入更具表达力的方法(如扩散策略)

八、个人思考

8.1 输入-输出对齐的设计哲学

BridgeVLA 最核心的 insight 是:构建 3D VLA 时,保持与 VLM 预训练格式的对齐比注入更多 3D 信息更重要。这与 SF 的隐式空间对齐思路异曲同工——SF 也避免直接输入 3D 数据,而是通过中间层表征监督来获取 3D 能力。两者都说明了一个规律:保护 VLM 预训练表征不被破坏,是 VLA 成功的关键前提

8.2 与 TGM-VLA 的互补性

TGM-VLA 同样基于正交投影范式(RVT-2 的后继),在 RLBench 达到 90.5%,略高于 BridgeVLA 的 88.2%。但 TGM-VLA 不使用 VLM 骨架,因此泛化能力受限。BridgeVLA 则通过 VLM 骨架在 COLOSSEUM 泛化场景(64.0% vs TGM-VLA 的 68.8%)和真实世界(96.9%)上表现更强。两者说明正交投影已成为 3D VLA 的标配输入表示,而 VLM 骨架带来的是泛化性而非单纯的性能提升。

8.3 热力图预训练的范式价值

BridgeVLA 的热力图预训练本质上是让 VLM "学会指哪打哪"——从文本描述到图像定位。这与传统的 visual grounding 任务一脉相承,但用热力图替代了 bounding box,更适合下游策略学习。这提示了一个有趣的研究方向:能否设计更多样化的中间预训练任务(关键点检测、语义分割等)来进一步增强 3D VLA 的泛化能力?

8.4 样本效率的上限探索

BridgeVLA 用 3 条轨迹达到 95.4% 的成功率,而 π₀ 在 10 条轨迹下仅 3.8%。这个巨大的差距源于两个因素:(1) 3D 结构先验(正交投影 + 热力图)天然适合 keyframe-based 操作,(2) 输入-输出对齐保护了 VLM 的定位能力。但 π₀ 擅长的是连续灵巧操作(action chunk + flow matching),两者面向不同的任务类型。


参考

  • RVT-2 — 正交投影 + Coarse-to-Fine 的 3D 操作策略,BridgeVLA 的直接竞争对手
  • PaliGemma — BridgeVLA 使用的 VLM 骨架
  • RoboPoint — 提供热力图预训练数据
  • SpatialVLA — 另一种 3D VLA 方法,通过 Ego3D 位置编码注入 3D 信息