Skip to content

Spatial Forcing:隐式空间表征对齐提升 VLA 3D 感知

论文:Spatial Forcing: Implicit Spatial Representation Alignment for Vision-Language-Action Model

作者:Fuhao Li, Wenxuan Song, Han Zhao, Jingbo Wang, Pengxiang Ding, Donglin Wang, Long Zeng, Haoang Li

机构:香港科技大学(广州)、清华大学、西湖大学、浙江大学、华南理工大学

发布时间:2025年10月

🔗 arXiv | 项目主页

会议:ICLR 2026

分类标签:3D VLA 表征对齐 VGGT 空间感知 隐式3D 训练加速 数据效率


一句话总结

提出 Spatial Forcing (SF),在训练时将 VLA 中间层视觉 embedding 与预训练 3D 基础模型(VGGT)的空间表征做余弦相似度对齐,无需显式 3D 输入或深度估计器即可隐式赋予 VLA 空间理解能力,推理阶段零额外开销。在 LIBERO 上以 98.5% 平均成功率超越所有 2D 和 3D VLA(含使用深度/点云输入的方法),训练效率提升 3.8×,数据效率提升 5.9×。


一、问题与动机

1.1 VLA 缺乏 3D 空间感知

当前主流 VLA 基于 VLM 构建,而 VLM 的视觉编码器仅在 2D 图像数据上预训练,缺乏精确的空间感知能力。在物理世界中执行操作需要理解物体之间的 3D 相对位置关系——这正是 2D VLA 的薄弱环节。

1.2 显式 3D 方案的局限

现有 3D VLA 尝试引入显式 3D 信息,但面临三类挑战:

方案代表方法局限
显式 3D 传感器输入VidBot, PointVLA, GeoVLA, 3D-CAVLA传感器噪声大、硬件异构、数据集缺深度
深度估计辅助SpatialVLA, EVO-0受限于深度估计器精度,策略次优
隐式空间能力培养Spatial Forcing(本文)无需 3D 输入,无推理开销

1.3 Depth Probing 揭示空间信息不足

论文冻结 VLA 参数,仅训练一个 DPT Head 从 VLA 的视觉 embedding 预测深度图。结果发现:未对齐的 VLA 视觉 embedding 无法产生有意义的空间结构,说明纯 2D 训练的 VLA 在表征空间中几乎不编码 3D 信息。


二、预备知识

2.1 VLA 中视觉 token 的角色

自回归 VLA 中,动作 token 以因果注意力方式条件化于视觉和语言 token:

xtApθ(xtA{xiV}i=1N, {xjL}j=1M, x<tA)

关键洞察:视觉 token {xiV} 是中间场景表征,如果它们包含更丰富的 3D 空间信息,就能帮助生成更精确的动作 token。

2.2 VGGT(Visual Geometry Grounded Transformer)

VGGT 是一个前馈式 3D 基础模型,输入多视图 2D 图像,直接输出相机参数、点图、深度图、3D 点轨迹等多种 3D 属性。其核心是交替注意力机制(Alternating Attention),在帧内自注意力和全局自注意力之间交替。VGGT 的 Transformer 骨干输出的隐表征天然编码了丰富的空间几何信息。


三、核心方法:Spatial Forcing

3.1 对齐目标

将 VLA 第 i 层的视觉 token xiV 与 VGGT 输出的像素级空间表征对齐:

Lalign=1Ni=1NS[MLPΓ(xiV), fi3D(I)+E]

其中:

  • S[,] 为余弦相似度
  • Γ 为 Batch Normalization,确保特征量纲一致
  • MLP 为两层映射网络,对齐特征维度
  • fi3D(I) 为 VGGT 输出的对应像素位置的空间表征
  • E 为位置编码,保持自回归过程中 token 的位置顺序信息

3.2 对齐层选择

VLA 骨干(如 Prismatic VLM,32 层因果注意力)中,较深但非最深层(第 24 层)效果最佳:

对齐层Average SR (%)
第 1 层94.6
第 8 层95.7
第 16 层93.8
第 24 层96.9
第 32 层(最深)94.8

原因

  • 监督深层隐式驱动浅层也对齐,全局改善空间理解
  • 监督浅层则对齐后的表征在后续层中逐渐丢失空间信息
  • 最深层的视觉和语言模态已趋于模态无关(modality-agnostic),不再适合视觉特征的监督

3.3 训练目标

最终损失为标准动作损失与对齐损失的加权组合:

LSF=Laction+αLalign

权重因子 α=0.5 为默认设置。消融实验显示:

α00.020.10.52.512.5
SR (%)73.292.292.893.686.681.2

过大的 α 会破坏 VLA 视觉模态的稳定性,干扰原始动作预测。

3.4 推理阶段

推理时完全等价于标准 VLA——对齐模块(VGGT、MLP、BN)仅在训练时使用,推理无任何额外结构或计算开销。这是 SF 相比显式 3D 方案的核心优势。


四、实验结果

4.1 LIBERO 基准

每个任务 500 次随机评估(8×H100,150K iterations):

方法类别SpatialObjectGoalLongAverage
Diffusion Policy2D VLA78.392.568.350.572.4
OpenVLA2D VLA84.788.479.253.776.5
π₀2D VLA96.898.895.885.294.2
OpenVLA-OFT2D VLA97.698.497.994.597.1
SpatialVLA显式 3D88.289.978.655.578.1
GeoVLA显式 3D98.499.096.696.697.7
3D-CAVLA显式 3D98.299.898.296.198.1
SF(Ours)隐式 3D99.499.698.896.098.5

SF 在不使用任何 3D 传感器输入的情况下,超越了所有使用深度/点云的显式 3D VLA。

4.2 RoboTwin 2.0 基准

基于 π₀ + LoRA 的 SF(1×H100,30K iterations),在双臂任务上取得最高平均成功率,尤其在 hard 设置(域随机化、杂物干扰、光照变化)下提升显著,说明 SF 捕捉的是真实空间关系而非捷径相关性。

4.3 训练效率

设置2K iter5K20K50K150K
w/o SF~65%~70%~85%~90%92.7%
w/ SF~72.7%~87.5%~93.7%~96.5%96.9%

SF 实现相同成功率只需 1/3.8 的训练迭代。空间表征监督为 VLA 提供了高效的学习路径。

4.4 数据效率

数据量w/o SFw/ SF提升
1%42.3%
5%~50%75.8%+25.8%
33%~92%
100%92.7%96.9%+4.2%

仅用 5% 数据即可达到 75.8% 成功率,数据效率提升 5.9×。这对真实世界数据稀缺的场景尤为重要。

4.5 目标表征消融

目标表征Average SR (%)
无对齐(baseline)92.7
SigLIP(2D 语义)94.0
DINOv2(2D 细粒度)94.1
VGGT w/o 位置编码94.7
VGGT w/ 位置编码96.9

所有对齐目标都优于 baseline,说明表征对齐是通用范式。VGGT(3D 表征)效果最好,且加上位置编码对 Long-horizon 任务提升显著(84.4% → 94.2%),因为位置编码保持了 token 在自回归过程中的位置顺序。

4.6 真实世界实验

AgileX 双臂平台,单臂任务 40 条演示、双臂 20 条演示:

任务w/o SFw/ SF提升
Stack Glass Cups(光照变化)15.0%62.5%+47.5%
Grasp Right-side Vegetable(目标物变化)10.0%47.5%+37.5%
Place Green Block(高度变化)67.5%85.0%+17.5%
Lift Pot(双臂平衡)30.0%42.5%+12.5%

SF 在所有变化条件下均大幅提升,特别是对光照和透明物体的鲁棒性(+47.5%),说明 SF 捕捉了底层空间关系而非表面视觉相关性。

4.7 t-SNE 可视化

对齐后的 VLA 特征与 VGGT 目标呈现几乎相同的分布形状(关系结构同构),但聚类中心保持独立。这说明 SF 让 VLA 学到了空间表征的流形结构,同时保留了自身模态的表征身份,避免了表征坍缩。


五、局限性与未来方向

  1. VGGT 依赖:SF 的空间监督质量取决于 VGGT 的 3D 表征质量;如果 VGGT 在某些场景(如极端光照、反光表面)表现不佳,SF 的效果可能受限
  2. 仅监督视觉 token:当前方案仅对齐视觉 embedding,未触及语言 token 或动作 token 的空间感知能力
  3. 单一对齐层:论文选择固定对齐第 24 层,未探索多层联合对齐或自适应层选择
  4. 真实世界规模有限:真实实验仅 4 个任务、每任务 20-40 条演示,大规模部署效果有待验证

六、个人思考

6.1 "隐式"3D 的设计哲学

SF 最优雅的地方在于:训练时借助 3D 教师,推理时完全去掉。这与知识蒸馏的思路一致——用一个强大但笨重的教师引导轻量学生。对比三类 3D VLA 范式:

  • 显式输入(GeoVLA, 3D-CAVLA):推理时仍需 3D 传感器,增加硬件成本和部署复杂度
  • 深度估计(SpatialVLA):推理时需要额外的深度估计网络,增加计算开销
  • 隐式对齐(SF):推理时零开销,最具部署友好性

6.2 与 REPA 和 3DRS 的关系

SF 的表征对齐范式源自 REPA(Yu et al., 2024)和 3DRS(Huang et al., 2025):

  • REPA 在图像/视频生成模型中对齐中间表征与预训练视觉编码器
  • 3DRS 将 3D 表征监督引入 MLLM 以增强空间接地能力
  • SF 将这一范式迁移到 VLA 领域,用 VGGT 的几何表征作为监督信号

这说明表征对齐是一种跨领域的通用加速和增强范式

6.3 对齐层选择的深层含义

第 24/32 层(75%深度)最优这个发现很有洞察:

  • 与 Modality Integration Rate(Huang et al., 2024)的研究一致:VLM 深层的视觉和语言模态逐渐融合为模态无关表征
  • 这意味着VLA 中间层存在一个"甜蜜点"——足够深以影响全局,但尚未丢失视觉模态特性
  • 这个发现对其他表征监督方法(如 ReconVLA 的重建监督)也有参考价值

6.4 与 TGM-VLA 的互补性

TGM-VLA 在数据层面提升 3D VLA(关键帧采样优化、点云 Mixup),SF 在表征层面提升(隐式空间对齐)。两者解决的是不同层面的问题,理论上可以组合使用——用 TGM-VLA 的数据增强策略 + SF 的空间表征对齐。

6.5 数据效率的实用价值

5% 数据达到 75.8% 成功率这个结果对真实世界部署意义重大。在真实机器人场景中,数据采集成本极高(每条演示可能需要人类 teleoperation 几分钟),SF 将所需数据量降低到原来的 1/5.9,直接降低了 VLA 落地的数据门槛。


参考

  • VGGT(Wang et al., CVPR 2025):SF 使用的 3D 基础模型,提供像素级空间表征作为对齐目标
  • OpenVLA-OFT(Kim et al., 2025):SF 在 LIBERO 上的基础模型,提供 Prismatic VLM 骨干
  • π₀(Black et al., 2024):SF 在 RoboTwin 上的基础模型,Flow Matching VLA
  • REPA(Yu et al., 2024):表征对齐范式的先驱,在扩散模型中对齐中间状态与外部视觉编码器
  • 3DRS(Huang et al., 2025):将 3D 表征监督引入 MLLM 增强空间接地能力
  • SpatialVLA(Qu et al., 2025):显式深度估计辅助的 3D VLA——SF 的主要对比范式
  • GeoVLA(Sun et al., 2025):点云输入的显式 3D VLA——SF 在无 3D 输入下达到同等性能