BridgeVLA：输入-输出对齐的高效 3D 操作学习

论文：BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
作者：Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
机构：中科院自动化所（NLPR）、字节跳动 Seed、FiveAges、南京大学
发布时间：2025年6月
🔗 arXiv | 项目主页
发表会议：NeurIPS 2025

一句话总结

BridgeVLA 通过将 3D 点云正交投影为多视图 2D 图像作为输入、预测 2D 热力图作为动作输出，在统一的 2D 空间中对齐预训练和微调的输入-输出格式，实现了极高的样本效率（3 条轨迹即达 95.4%），RLBench 88.2%、COLOSSEUM 64.0% 均为 SOTA。

二、问题与动机

2.1 当前 3D VLA 的困境

利用预训练 VLM 构建 VLA 模型已是主流范式，但大多数 VLA 仅使用 2D 图像输入，缺乏 3D 空间结构先验，导致数据效率低——通常需要数百条轨迹才能学好一个任务。

另一方面，3D 机器人策略（如 PerAct、RVT-2）利用点云/体素输入的空间结构，展现了优异的样本效率。但它们无法利用 VLM 的广泛预训练知识。

核心问题：能否构建一个统一的 3D VLA 模型，同时兼具 VLA 的有效性和 3D 策略的高效性？

2.2 现有 3D VLA 的缺陷

已有的 3D VLA 方法（如 3D-VLA、SpatialVLA、PointVLA）存在两个根本性问题：

动作表示缺乏空间结构：将动作转换为无空间结构的 token 序列，用 next-token prediction 预测，无法利用 3D 结构先验
输入分布偏移严重：将 3D 信息注入到 VLM 中（如 Ego3D 位置编码），改变了 VLM 预训练时见过的输入特征分布，导致预训练知识退化

2.3 BridgeVLA 的核心思路

BridgeVLA 提出了一个关键的设计哲学——在统一的 2D 图像空间中对齐输入和输出：

输入对齐：将 3D 点云通过正交投影转换为 2D 图像，与 VLM 预训练的 2D 图像输入格式一致
输出对齐：预测 2D 热力图来估计平移动作，热力图与输入图像共享相同的空间分辨率和结构
预训练-微调对齐：引入 2D 热力图预训练阶段，让 VLM 在微调前就具备预测热力图的能力

三、预备知识

3.1 Keyframe-based 操作策略

BridgeVLA 采用关键帧策略：预测下一个关键帧的末端执行器位姿 $T \in S E (3)$ 、夹爪状态 $g \in {0, 1}$ 和碰撞标志 $c \in {0, 1}$ ，然后由运动规划器（如 RRT-Connect）执行从当前位姿到目标位姿的运动。关键帧通常捕获轨迹中的关键步骤（如抓取、放置时刻）。

3.2 正交投影（Orthographic Projection）

将 3D 点云从三个正交视角（俯视 top、正面 front、右侧 right）投影为 2D 图像。这是 RVT/RVT-2 系列引入的方法，优点在于：

避免直接处理 3D 数据的高计算开销
三个视图完整覆盖 3D 空间信息
投影图像格式与 VLM 预训练图像一致

3.3 热力图动作预测

不同于直接回归 3D 坐标，热力图方法通过分类的方式预测空间位置：

对每个正交视图输出一张概率热力图
将三个视图的热力图反投影到 3D 工作空间的均匀网格上
选择得分最高的 3D 点作为末端执行器的目标平移

四、核心方法

4.1 整体架构

BridgeVLA 采用两阶段训练流水线：

2D 热力图预训练：在目标检测数据集上训练 VLM 预测 2D 热力图
3D 动作微调：在机器人操作数据上微调，输入点云正交投影图像，输出热力图+旋转+夹爪+碰撞

VLM 骨架选用 PaliGemma（SigLIP 视觉编码器 + Gemma Transformer），SigLIP 和语言 token embedding 在整个训练过程中冻结。

4.2 2D 热力图预训练

动机

VLM 原本预训练的目标是预测 token 序列（无空间结构），而下游策略学习需要预测 2D 热力图。为弥合这一能力差距，需要一个中间预训练阶段。

预训练数据

使用 RoboPoint 的 120K 目标检测子集。对每张图像，从目标物体的 bounding box 中心构造 ground-truth 热力图。

热力图构造

对第 $i$ 个物体，以其 bounding box 中心 ${\hat{x}}_{i}$ 为中心构造截断高斯概率图：

H_{i}^{g t} (x) = {\begin{cases} p_{i} (x) & if p_{i} (x) \geq p_{min} \\ 0 & otherwise \end{cases}

其中 $p_{i} (x) = \exp (- ∥ x - {\hat{x}}_{i} ∥^{2} / 2 σ^{2})$ 。多个物体通过平均 + 归一化融合：

H^{g t} (x) = \frac{H_{a v g} (x)}{\sum_{x \in Ω} H_{a v g} (x)}, H_{a v g} (x) = \frac{1}{N} \sum_{i = 1}^{N} H_{i}^{g t} (x)

热力图预测流程

将图像 + 目标物体文本描述输入 VLM
利用 PaliGemma 的双向注意力：图像 token 与 prefix text token 之间使用双向注意力（而非因果注意力），让图像 token 可以融合文本信息
将输出的图像 token 按 patch 位置重排为空间特征网格
通过凸上采样模块（convex upsampling，学习像素级插值权重，比双线性插值更精细）将特征网格上采样到原图分辨率的热力图
用交叉熵损失监督

预训练的可扩展性

这种方法本质上将 VLM 训练为"给定文本描述，在图像中定位目标区域"。原则上可以利用任何可以转化为热力图预测的视觉-语言数据集（关键点检测、语义分割等）。

4.3 3D 动作微调

输入处理

从标定 RGB-D 相机重建场景点云
从三个正交视角（top、front、right）渲染投影图像
投影图像 + 语言指令输入预训练好的 VLM

关键设计：微调时不向 VLM 前向传播注入任何额外信息（如机器人状态），以最小化预训练与微调之间的分布偏移。

平移动作预测

VLM 为三个视图各生成一张热力图。将热力图反投影到 3D 工作空间的均匀网格：对每个 3D 网格点，将其投影到三个视图上，取对应热力图值的均值作为该 3D 点的得分。得分最高的 3D 点即为末端执行器的目标平移位置。

旋转/夹爪/碰撞预测

旋转用 Euler 角表示，每轴离散化为 72 个 bin。预测时整合全局和局部特征：

全局特征：对每个视图的输出 token 做 max-pooling，得到 3 个 token
局部特征：从每个视图热力图峰值位置提取 token，得到 3 个 token
6 个 token 拼接后通过 MLP 预测旋转（交叉熵损失）、夹爪（二元交叉熵）和碰撞标志（二元交叉熵）

Coarse-to-Fine 策略

采用粗到精的两阶段推理：

第一轮：在完整点云上预测，得到粗略平移位置
第二轮：以粗略位置为中心裁剪并放大点云区域，再次推理得到精细动作

训练损失

L = L_{t r a n s} + L_{r o t} + L_{g r i p p e r} + L_{c o l l i s i o n}

训练时对点云和 ground-truth 动作联合施加随机刚体变换，增强几何鲁棒性。

五、实验结果

5.1 RLBench（18 任务，100 条演示/任务）

方法	类型	Avg. SR (%)	Avg. Rank
PerAct	3D 体素	49.4	7.0
Act3D	3D 点云	65.0	4.89
RVT	3D 正交投影	62.9	4.92
3D Diffuser Actor	3D 扩散	81.3	2.67
RVT-2	3D 正交投影	81.4	2.75
BridgeVLA	3D VLA	88.2	2.03

亮点任务：

Insert Peg：88.0% vs RVT-2 的 40.0%（+48%），需要极高精度的对齐
Sort Shape：60.8% vs RVT-2 的 35.0%（+25.8%），需要精确的形状匹配
Stack Cups：81.6% vs RVT-2 的 69.0%，18 个任务中 10 个 SOTA

5.2 COLOSSEUM（泛化鲁棒性，12 类扰动）

方法	Avg. SR (%)	Avg. Rank
PerAct	27.9	3.71
RVT	35.4	3.28
RVT-2	56.7	1.92
BridgeVLA	64.0	1.07

14 类扰动评估中 13 类排名第一。在光照变化（69.7% vs 58.0%）、桌面颜色（75.7% vs 62.6%）和桌面纹理（71.3% vs 56.6%）上优势尤为明显。

5.3 GemBench（层次化泛化基准）

方法	Average	L1（新放置）	L2（新刚体）	L3（新关节体）	L4（长时域）
RVT-2	44.0	89.1	51.0	36.0	0.0
3D-LOTUS++	48.0	68.7	64.5	41.5	17.4
BridgeVLA	50.0	91.1	65.0	43.8	0.0

L2（新物体泛化）和 L3（新关节物体泛化）上均为 SOTA，但 L4（长时域多步任务）上与大多数方法一样接近 0%。

5.4 真实机器人实验

设备：Franka Research 3 + ZED 2i 深度相机，13 个任务，每任务仅 10 条轨迹训练。

方法	Basic	训练数据量
SpatialVLA (50 traj)	28.5%	50 条/任务
π₀	3.8%	10 条/任务
ACT	22.3%	10 条/任务
RVT-2	90.0%	10 条/任务
BridgeVLA	96.9%	10 条/任务
BridgeVLA	95.4%	仅 3 条/任务

7 个评估场景（Basic、Distractor、Lighting、Background、Height、Combination、Category）中 BridgeVLA 全部优于 RVT-2，平均领先 32%。在 Lighting 和 Combination 设置下优势最大。

5.5 关键消融实验

变体	RLBench Avg. SR
BridgeVLA w/o heatmap（直接回归位置）	31.4%（-56.8）
BridgeVLA w/ pos（注入 3D 位置特征）	56.2%（-32.0）
BridgeVLA（完整）	88.2%

三个消融回答了三个设计问题：

是否需要热力图中间表示？ 必须。去掉热力图改用直接回归，性能暴跌至 31.4%。原因：热力图提供更稠密的监督信号、引入空间先验、且与输入图像共享空间结构
是否需要避免 3D 位置输入？ 必须。注入 per-pixel 3D 位置改变了 VLM 预训练的特征分布，性能从 88.2% 降至 56.2%
是否需要热力图预训练？ 真实世界实验证实必须。无预训练的版本在 Combination 和 Category 泛化场景下甚至不如 RVT-2

六、训练与推理细节

训练配置

	预训练	RLBench	COLOSSEUM	真实世界
学习率	5e-5	8e-5	8e-5	2e-5
优化器	AdamW	AdamW	AdamW	AdamW
Batch size	384	192	192	192
资源	8×A100, 2h	48×H100, 20h	48×H100, 20h	8×A100, 1.5h

推理速度

RTX 4090 上端到端推理时间为 0.21 秒（从点云输入到动作输出）。

七、局限性与未来方向

长时域任务能力不足：在 GemBench L4（多子任务组合）上接近 0%，与大多数 3D 方法一样。未来计划引入 LLM 进行任务分解
正交投影的遮挡问题：在 Place Cups 等任务上表现最差，因为目标关键点在所有正交视图中都被遮挡。计划探索动态视角选择
Category 泛化有限：虽然预训练知识保留（微调后仍能准确预测预训练样本的热力图），但预训练图像（第三人称视角）与正交投影图像差异大，且预训练任务（定位物体）与操作任务（预测不对应物体的关键点）之间存在语义鸿沟
动作解码方式受限：仅使用分类式热力图预测，计划引入更具表达力的方法（如扩散策略）

八、个人思考

8.1 输入-输出对齐的设计哲学

BridgeVLA 最核心的 insight 是：构建 3D VLA 时，保持与 VLM 预训练格式的对齐比注入更多 3D 信息更重要。这与 SF 的隐式空间对齐思路异曲同工——SF 也避免直接输入 3D 数据，而是通过中间层表征监督来获取 3D 能力。两者都说明了一个规律：保护 VLM 预训练表征不被破坏，是 VLA 成功的关键前提。

8.2 与 TGM-VLA 的互补性

TGM-VLA 同样基于正交投影范式（RVT-2 的后继），在 RLBench 达到 90.5%，略高于 BridgeVLA 的 88.2%。但 TGM-VLA 不使用 VLM 骨架，因此泛化能力受限。BridgeVLA 则通过 VLM 骨架在 COLOSSEUM 泛化场景（64.0% vs TGM-VLA 的 68.8%）和真实世界（96.9%）上表现更强。两者说明正交投影已成为 3D VLA 的标配输入表示，而 VLM 骨架带来的是泛化性而非单纯的性能提升。

8.3 热力图预训练的范式价值

BridgeVLA 的热力图预训练本质上是让 VLM "学会指哪打哪"——从文本描述到图像定位。这与传统的 visual grounding 任务一脉相承，但用热力图替代了 bounding box，更适合下游策略学习。这提示了一个有趣的研究方向：能否设计更多样化的中间预训练任务（关键点检测、语义分割等）来进一步增强 3D VLA 的泛化能力？

8.4 样本效率的上限探索

BridgeVLA 用 3 条轨迹达到 95.4% 的成功率，而 π₀ 在 10 条轨迹下仅 3.8%。这个巨大的差距源于两个因素：(1) 3D 结构先验（正交投影 + 热力图）天然适合 keyframe-based 操作，(2) 输入-输出对齐保护了 VLM 的定位能力。但 π₀ 擅长的是连续灵巧操作（action chunk + flow matching），两者面向不同的任务类型。

参考

RVT-2 — 正交投影 + Coarse-to-Fine 的 3D 操作策略，BridgeVLA 的直接竞争对手
PaliGemma — BridgeVLA 使用的 VLM 骨架
RoboPoint — 提供热力图预训练数据
SpatialVLA — 另一种 3D VLA 方法，通过 Ego3D 位置编码注入 3D 信息

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

BridgeVLA：输入-输出对齐的高效 3D 操作学习 ​

一句话总结 ​

二、问题与动机 ​

2.1 当前 3D VLA 的困境 ​

2.2 现有 3D VLA 的缺陷 ​

2.3 BridgeVLA 的核心思路 ​

三、预备知识 ​

3.1 Keyframe-based 操作策略 ​

3.2 正交投影（Orthographic Projection） ​

3.3 热力图动作预测 ​

四、核心方法 ​

4.1 整体架构 ​

4.2 2D 热力图预训练 ​

动机 ​

预训练数据 ​

热力图构造 ​

热力图预测流程 ​

预训练的可扩展性 ​

4.3 3D 动作微调 ​

输入处理 ​

平移动作预测 ​

旋转/夹爪/碰撞预测 ​

Coarse-to-Fine 策略 ​

训练损失 ​

五、实验结果 ​

5.1 RLBench（18 任务，100 条演示/任务） ​

5.2 COLOSSEUM（泛化鲁棒性，12 类扰动） ​

5.3 GemBench（层次化泛化基准） ​

5.4 真实机器人实验 ​

5.5 关键消融实验 ​

六、训练与推理细节 ​

训练配置 ​

推理速度 ​

七、局限性与未来方向 ​

八、个人思考 ​

8.1 输入-输出对齐的设计哲学 ​

8.2 与 TGM-VLA 的互补性 ​

8.3 热力图预训练的范式价值 ​

8.4 样本效率的上限探索 ​

参考 ​