Spatial Forcing:隐式空间表征对齐提升 VLA 3D 感知
论文:Spatial Forcing: Implicit Spatial Representation Alignment for Vision-Language-Action Model
作者:Fuhao Li, Wenxuan Song, Han Zhao, Jingbo Wang, Pengxiang Ding, Donglin Wang, Long Zeng, Haoang Li
机构:香港科技大学(广州)、清华大学、西湖大学、浙江大学、华南理工大学
发布时间:2025年10月
会议:ICLR 2026
分类标签:
3D VLA表征对齐VGGT空间感知隐式3D训练加速数据效率
一句话总结
提出 Spatial Forcing (SF),在训练时将 VLA 中间层视觉 embedding 与预训练 3D 基础模型(VGGT)的空间表征做余弦相似度对齐,无需显式 3D 输入或深度估计器即可隐式赋予 VLA 空间理解能力,推理阶段零额外开销。在 LIBERO 上以 98.5% 平均成功率超越所有 2D 和 3D VLA(含使用深度/点云输入的方法),训练效率提升 3.8×,数据效率提升 5.9×。
一、问题与动机
1.1 VLA 缺乏 3D 空间感知
当前主流 VLA 基于 VLM 构建,而 VLM 的视觉编码器仅在 2D 图像数据上预训练,缺乏精确的空间感知能力。在物理世界中执行操作需要理解物体之间的 3D 相对位置关系——这正是 2D VLA 的薄弱环节。
1.2 显式 3D 方案的局限
现有 3D VLA 尝试引入显式 3D 信息,但面临三类挑战:
| 方案 | 代表方法 | 局限 |
|---|---|---|
| 显式 3D 传感器输入 | VidBot, PointVLA, GeoVLA, 3D-CAVLA | 传感器噪声大、硬件异构、数据集缺深度 |
| 深度估计辅助 | SpatialVLA, EVO-0 | 受限于深度估计器精度,策略次优 |
| 隐式空间能力培养 | Spatial Forcing(本文) | 无需 3D 输入,无推理开销 |
1.3 Depth Probing 揭示空间信息不足
论文冻结 VLA 参数,仅训练一个 DPT Head 从 VLA 的视觉 embedding 预测深度图。结果发现:未对齐的 VLA 视觉 embedding 无法产生有意义的空间结构,说明纯 2D 训练的 VLA 在表征空间中几乎不编码 3D 信息。
二、预备知识
2.1 VLA 中视觉 token 的角色
自回归 VLA 中,动作 token 以因果注意力方式条件化于视觉和语言 token:
关键洞察:视觉 token
2.2 VGGT(Visual Geometry Grounded Transformer)
VGGT 是一个前馈式 3D 基础模型,输入多视图 2D 图像,直接输出相机参数、点图、深度图、3D 点轨迹等多种 3D 属性。其核心是交替注意力机制(Alternating Attention),在帧内自注意力和全局自注意力之间交替。VGGT 的 Transformer 骨干输出的隐表征天然编码了丰富的空间几何信息。
三、核心方法:Spatial Forcing
3.1 对齐目标
将 VLA 第
其中:
为余弦相似度 为 Batch Normalization,确保特征量纲一致 - MLP 为两层映射网络,对齐特征维度
为 VGGT 输出的对应像素位置的空间表征 为位置编码,保持自回归过程中 token 的位置顺序信息
3.2 对齐层选择
VLA 骨干(如 Prismatic VLM,32 层因果注意力)中,较深但非最深层(第 24 层)效果最佳:
| 对齐层 | Average SR (%) |
|---|---|
| 第 1 层 | 94.6 |
| 第 8 层 | 95.7 |
| 第 16 层 | 93.8 |
| 第 24 层 | 96.9 |
| 第 32 层(最深) | 94.8 |
原因:
- 监督深层隐式驱动浅层也对齐,全局改善空间理解
- 监督浅层则对齐后的表征在后续层中逐渐丢失空间信息
- 最深层的视觉和语言模态已趋于模态无关(modality-agnostic),不再适合视觉特征的监督
3.3 训练目标
最终损失为标准动作损失与对齐损失的加权组合:
权重因子
| 0 | 0.02 | 0.1 | 0.5 | 2.5 | 12.5 | |
|---|---|---|---|---|---|---|
| SR (%) | 73.2 | 92.2 | 92.8 | 93.6 | 86.6 | 81.2 |
过大的
3.4 推理阶段
推理时完全等价于标准 VLA——对齐模块(VGGT、MLP、BN)仅在训练时使用,推理无任何额外结构或计算开销。这是 SF 相比显式 3D 方案的核心优势。
四、实验结果
4.1 LIBERO 基准
每个任务 500 次随机评估(8×H100,150K iterations):
| 方法 | 类别 | Spatial | Object | Goal | Long | Average |
|---|---|---|---|---|---|---|
| Diffusion Policy | 2D VLA | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 |
| OpenVLA | 2D VLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| π₀ | 2D VLA | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| OpenVLA-OFT | 2D VLA | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 |
| SpatialVLA | 显式 3D | 88.2 | 89.9 | 78.6 | 55.5 | 78.1 |
| GeoVLA | 显式 3D | 98.4 | 99.0 | 96.6 | 96.6 | 97.7 |
| 3D-CAVLA | 显式 3D | 98.2 | 99.8 | 98.2 | 96.1 | 98.1 |
| SF(Ours) | 隐式 3D | 99.4 | 99.6 | 98.8 | 96.0 | 98.5 |
SF 在不使用任何 3D 传感器输入的情况下,超越了所有使用深度/点云的显式 3D VLA。
4.2 RoboTwin 2.0 基准
基于 π₀ + LoRA 的 SF(1×H100,30K iterations),在双臂任务上取得最高平均成功率,尤其在 hard 设置(域随机化、杂物干扰、光照变化)下提升显著,说明 SF 捕捉的是真实空间关系而非捷径相关性。
4.3 训练效率
| 设置 | 2K iter | 5K | 20K | 50K | 150K |
|---|---|---|---|---|---|
| w/o SF | ~65% | ~70% | ~85% | ~90% | 92.7% |
| w/ SF | ~72.7% | ~87.5% | ~93.7% | ~96.5% | 96.9% |
SF 实现相同成功率只需 1/3.8 的训练迭代。空间表征监督为 VLA 提供了高效的学习路径。
4.4 数据效率
| 数据量 | w/o SF | w/ SF | 提升 |
|---|---|---|---|
| 1% | — | 42.3% | — |
| 5% | ~50% | 75.8% | +25.8% |
| 33% | — | ~92% | — |
| 100% | 92.7% | 96.9% | +4.2% |
仅用 5% 数据即可达到 75.8% 成功率,数据效率提升 5.9×。这对真实世界数据稀缺的场景尤为重要。
4.5 目标表征消融
| 目标表征 | Average SR (%) |
|---|---|
| 无对齐(baseline) | 92.7 |
| SigLIP(2D 语义) | 94.0 |
| DINOv2(2D 细粒度) | 94.1 |
| VGGT w/o 位置编码 | 94.7 |
| VGGT w/ 位置编码 | 96.9 |
所有对齐目标都优于 baseline,说明表征对齐是通用范式。VGGT(3D 表征)效果最好,且加上位置编码对 Long-horizon 任务提升显著(84.4% → 94.2%),因为位置编码保持了 token 在自回归过程中的位置顺序。
4.6 真实世界实验
AgileX 双臂平台,单臂任务 40 条演示、双臂 20 条演示:
| 任务 | w/o SF | w/ SF | 提升 |
|---|---|---|---|
| Stack Glass Cups(光照变化) | 15.0% | 62.5% | +47.5% |
| Grasp Right-side Vegetable(目标物变化) | 10.0% | 47.5% | +37.5% |
| Place Green Block(高度变化) | 67.5% | 85.0% | +17.5% |
| Lift Pot(双臂平衡) | 30.0% | 42.5% | +12.5% |
SF 在所有变化条件下均大幅提升,特别是对光照和透明物体的鲁棒性(+47.5%),说明 SF 捕捉了底层空间关系而非表面视觉相关性。
4.7 t-SNE 可视化
对齐后的 VLA 特征与 VGGT 目标呈现几乎相同的分布形状(关系结构同构),但聚类中心保持独立。这说明 SF 让 VLA 学到了空间表征的流形结构,同时保留了自身模态的表征身份,避免了表征坍缩。
五、局限性与未来方向
- VGGT 依赖:SF 的空间监督质量取决于 VGGT 的 3D 表征质量;如果 VGGT 在某些场景(如极端光照、反光表面)表现不佳,SF 的效果可能受限
- 仅监督视觉 token:当前方案仅对齐视觉 embedding,未触及语言 token 或动作 token 的空间感知能力
- 单一对齐层:论文选择固定对齐第 24 层,未探索多层联合对齐或自适应层选择
- 真实世界规模有限:真实实验仅 4 个任务、每任务 20-40 条演示,大规模部署效果有待验证
六、个人思考
6.1 "隐式"3D 的设计哲学
SF 最优雅的地方在于:训练时借助 3D 教师,推理时完全去掉。这与知识蒸馏的思路一致——用一个强大但笨重的教师引导轻量学生。对比三类 3D VLA 范式:
- 显式输入(GeoVLA, 3D-CAVLA):推理时仍需 3D 传感器,增加硬件成本和部署复杂度
- 深度估计(SpatialVLA):推理时需要额外的深度估计网络,增加计算开销
- 隐式对齐(SF):推理时零开销,最具部署友好性
6.2 与 REPA 和 3DRS 的关系
SF 的表征对齐范式源自 REPA(Yu et al., 2024)和 3DRS(Huang et al., 2025):
- REPA 在图像/视频生成模型中对齐中间表征与预训练视觉编码器
- 3DRS 将 3D 表征监督引入 MLLM 以增强空间接地能力
- SF 将这一范式迁移到 VLA 领域,用 VGGT 的几何表征作为监督信号
这说明表征对齐是一种跨领域的通用加速和增强范式。
6.3 对齐层选择的深层含义
第 24/32 层(75%深度)最优这个发现很有洞察:
- 与 Modality Integration Rate(Huang et al., 2024)的研究一致:VLM 深层的视觉和语言模态逐渐融合为模态无关表征
- 这意味着VLA 中间层存在一个"甜蜜点"——足够深以影响全局,但尚未丢失视觉模态特性
- 这个发现对其他表征监督方法(如 ReconVLA 的重建监督)也有参考价值
6.4 与 TGM-VLA 的互补性
TGM-VLA 在数据层面提升 3D VLA(关键帧采样优化、点云 Mixup),SF 在表征层面提升(隐式空间对齐)。两者解决的是不同层面的问题,理论上可以组合使用——用 TGM-VLA 的数据增强策略 + SF 的空间表征对齐。
6.5 数据效率的实用价值
5% 数据达到 75.8% 成功率这个结果对真实世界部署意义重大。在真实机器人场景中,数据采集成本极高(每条演示可能需要人类 teleoperation 几分钟),SF 将所需数据量降低到原来的 1/5.9,直接降低了 VLA 落地的数据门槛。
参考
- VGGT(Wang et al., CVPR 2025):SF 使用的 3D 基础模型,提供像素级空间表征作为对齐目标
- OpenVLA-OFT(Kim et al., 2025):SF 在 LIBERO 上的基础模型,提供 Prismatic VLM 骨干
- π₀(Black et al., 2024):SF 在 RoboTwin 上的基础模型,Flow Matching VLA
- REPA(Yu et al., 2024):表征对齐范式的先驱,在扩散模型中对齐中间状态与外部视觉编码器
- 3DRS(Huang et al., 2025):将 3D 表征监督引入 MLLM 增强空间接地能力
- SpatialVLA(Qu et al., 2025):显式深度估计辅助的 3D VLA——SF 的主要对比范式
- GeoVLA(Sun et al., 2025):点云输入的显式 3D VLA——SF 在无 3D 输入下达到同等性能