Spatial Forcing：隐式空间表征对齐提升 VLA 3D 感知

论文：Spatial Forcing: Implicit Spatial Representation Alignment for Vision-Language-Action Model
作者：Fuhao Li, Wenxuan Song, Han Zhao, Jingbo Wang, Pengxiang Ding, Donglin Wang, Long Zeng, Haoang Li
机构：香港科技大学（广州）、清华大学、西湖大学、浙江大学、华南理工大学
发布时间：2025年10月
🔗 arXiv | 项目主页
会议：ICLR 2026
分类标签：3D VLA 表征对齐 VGGT 空间感知 隐式3D 训练加速 数据效率

一句话总结

提出 Spatial Forcing (SF)，在训练时将 VLA 中间层视觉 embedding 与预训练 3D 基础模型（VGGT）的空间表征做余弦相似度对齐，无需显式 3D 输入或深度估计器即可隐式赋予 VLA 空间理解能力，推理阶段零额外开销。在 LIBERO 上以 98.5% 平均成功率超越所有 2D 和 3D VLA（含使用深度/点云输入的方法），训练效率提升 3.8×，数据效率提升 5.9×。

一、问题与动机

1.1 VLA 缺乏 3D 空间感知

当前主流 VLA 基于 VLM 构建，而 VLM 的视觉编码器仅在 2D 图像数据上预训练，缺乏精确的空间感知能力。在物理世界中执行操作需要理解物体之间的 3D 相对位置关系——这正是 2D VLA 的薄弱环节。

1.2 显式 3D 方案的局限

现有 3D VLA 尝试引入显式 3D 信息，但面临三类挑战：

方案	代表方法	局限
显式 3D 传感器输入	VidBot, PointVLA, GeoVLA, 3D-CAVLA	传感器噪声大、硬件异构、数据集缺深度
深度估计辅助	SpatialVLA, EVO-0	受限于深度估计器精度，策略次优
隐式空间能力培养	Spatial Forcing（本文）	无需 3D 输入，无推理开销

1.3 Depth Probing 揭示空间信息不足

论文冻结 VLA 参数，仅训练一个 DPT Head 从 VLA 的视觉 embedding 预测深度图。结果发现：未对齐的 VLA 视觉 embedding 无法产生有意义的空间结构，说明纯 2D 训练的 VLA 在表征空间中几乎不编码 3D 信息。

二、预备知识

2.1 VLA 中视觉 token 的角色

自回归 VLA 中，动作 token 以因果注意力方式条件化于视觉和语言 token：

x_{t}^{A} \sim p_{θ} (x_{t}^{A} ∣ {x_{i}^{V}}_{i = 1}^{N}, {x_{j}^{L}}_{j = 1}^{M}, x_{< t}^{A})

关键洞察：视觉 token ${x_{i}^{V}}$ 是中间场景表征，如果它们包含更丰富的 3D 空间信息，就能帮助生成更精确的动作 token。

2.2 VGGT（Visual Geometry Grounded Transformer）

VGGT 是一个前馈式 3D 基础模型，输入多视图 2D 图像，直接输出相机参数、点图、深度图、3D 点轨迹等多种 3D 属性。其核心是交替注意力机制（Alternating Attention），在帧内自注意力和全局自注意力之间交替。VGGT 的 Transformer 骨干输出的隐表征天然编码了丰富的空间几何信息。

三、核心方法：Spatial Forcing

3.1 对齐目标

将 VLA 第 $i$ 层的视觉 token $x_{i}^{V}$ 与 VGGT 输出的像素级空间表征对齐：

L_{align} = - \frac{1}{N} \sum_{i = 1}^{N} S [MLP \cdot Γ (x_{i}^{V}), f_{i}^{3 D} (I) + E]

其中：

$S [\cdot, \cdot]$ 为余弦相似度
$Γ$ 为 Batch Normalization，确保特征量纲一致
MLP 为两层映射网络，对齐特征维度
$f_{i}^{3 D} (I)$ 为 VGGT 输出的对应像素位置的空间表征
$E$ 为位置编码，保持自回归过程中 token 的位置顺序信息

3.2 对齐层选择

VLA 骨干（如 Prismatic VLM，32 层因果注意力）中，较深但非最深层（第 24 层）效果最佳：

对齐层	Average SR (%)
第 1 层	94.6
第 8 层	95.7
第 16 层	93.8
第 24 层	96.9
第 32 层（最深）	94.8

原因：

监督深层隐式驱动浅层也对齐，全局改善空间理解
监督浅层则对齐后的表征在后续层中逐渐丢失空间信息
最深层的视觉和语言模态已趋于模态无关（modality-agnostic），不再适合视觉特征的监督

3.3 训练目标

最终损失为标准动作损失与对齐损失的加权组合：

L_{SF} = L_{action} + α \cdot L_{align}

权重因子 $α = 0.5$ 为默认设置。消融实验显示：

$α$	0	0.02	0.1	0.5	2.5	12.5
SR (%)	73.2	92.2	92.8	93.6	86.6	81.2

过大的 $α$ 会破坏 VLA 视觉模态的稳定性，干扰原始动作预测。

3.4 推理阶段

推理时完全等价于标准 VLA——对齐模块（VGGT、MLP、BN）仅在训练时使用，推理无任何额外结构或计算开销。这是 SF 相比显式 3D 方案的核心优势。

四、实验结果

4.1 LIBERO 基准

每个任务 500 次随机评估（8×H100，150K iterations）：

方法	类别	Spatial	Object	Goal	Long	Average
Diffusion Policy	2D VLA	78.3	92.5	68.3	50.5	72.4
OpenVLA	2D VLA	84.7	88.4	79.2	53.7	76.5
π₀	2D VLA	96.8	98.8	95.8	85.2	94.2
OpenVLA-OFT	2D VLA	97.6	98.4	97.9	94.5	97.1
SpatialVLA	显式 3D	88.2	89.9	78.6	55.5	78.1
GeoVLA	显式 3D	98.4	99.0	96.6	96.6	97.7
3D-CAVLA	显式 3D	98.2	99.8	98.2	96.1	98.1
SF（Ours）	隐式 3D	99.4	99.6	98.8	96.0	98.5

SF 在不使用任何 3D 传感器输入的情况下，超越了所有使用深度/点云的显式 3D VLA。

4.2 RoboTwin 2.0 基准

基于 π₀ + LoRA 的 SF（1×H100，30K iterations），在双臂任务上取得最高平均成功率，尤其在 hard 设置（域随机化、杂物干扰、光照变化）下提升显著，说明 SF 捕捉的是真实空间关系而非捷径相关性。

4.3 训练效率

设置	2K iter	5K	20K	50K	150K
w/o SF	~65%	~70%	~85%	~90%	92.7%
w/ SF	~72.7%	~87.5%	~93.7%	~96.5%	96.9%

SF 实现相同成功率只需 1/3.8 的训练迭代。空间表征监督为 VLA 提供了高效的学习路径。

4.4 数据效率

数据量	w/o SF	w/ SF	提升
1%	—	42.3%	—
5%	~50%	75.8%	+25.8%
33%	—	~92%	—
100%	92.7%	96.9%	+4.2%

仅用 5% 数据即可达到 75.8% 成功率，数据效率提升 5.9×。这对真实世界数据稀缺的场景尤为重要。

4.5 目标表征消融

目标表征	Average SR (%)
无对齐（baseline）	92.7
SigLIP（2D 语义）	94.0
DINOv2（2D 细粒度）	94.1
VGGT w/o 位置编码	94.7
VGGT w/ 位置编码	96.9

所有对齐目标都优于 baseline，说明表征对齐是通用范式。VGGT（3D 表征）效果最好，且加上位置编码对 Long-horizon 任务提升显著（84.4% → 94.2%），因为位置编码保持了 token 在自回归过程中的位置顺序。

4.6 真实世界实验

AgileX 双臂平台，单臂任务 40 条演示、双臂 20 条演示：

任务	w/o SF	w/ SF	提升
Stack Glass Cups（光照变化）	15.0%	62.5%	+47.5%
Grasp Right-side Vegetable（目标物变化）	10.0%	47.5%	+37.5%
Place Green Block（高度变化）	67.5%	85.0%	+17.5%
Lift Pot（双臂平衡）	30.0%	42.5%	+12.5%

SF 在所有变化条件下均大幅提升，特别是对光照和透明物体的鲁棒性（+47.5%），说明 SF 捕捉了底层空间关系而非表面视觉相关性。

4.7 t-SNE 可视化

对齐后的 VLA 特征与 VGGT 目标呈现几乎相同的分布形状（关系结构同构），但聚类中心保持独立。这说明 SF 让 VLA 学到了空间表征的流形结构，同时保留了自身模态的表征身份，避免了表征坍缩。

五、局限性与未来方向

VGGT 依赖：SF 的空间监督质量取决于 VGGT 的 3D 表征质量；如果 VGGT 在某些场景（如极端光照、反光表面）表现不佳，SF 的效果可能受限
仅监督视觉 token：当前方案仅对齐视觉 embedding，未触及语言 token 或动作 token 的空间感知能力
单一对齐层：论文选择固定对齐第 24 层，未探索多层联合对齐或自适应层选择
真实世界规模有限：真实实验仅 4 个任务、每任务 20-40 条演示，大规模部署效果有待验证

六、个人思考

6.1 "隐式"3D 的设计哲学

SF 最优雅的地方在于：训练时借助 3D 教师，推理时完全去掉。这与知识蒸馏的思路一致——用一个强大但笨重的教师引导轻量学生。对比三类 3D VLA 范式：

显式输入（GeoVLA, 3D-CAVLA）：推理时仍需 3D 传感器，增加硬件成本和部署复杂度
深度估计（SpatialVLA）：推理时需要额外的深度估计网络，增加计算开销
隐式对齐（SF）：推理时零开销，最具部署友好性

6.2 与 REPA 和 3DRS 的关系

SF 的表征对齐范式源自 REPA（Yu et al., 2024）和 3DRS（Huang et al., 2025）：

REPA 在图像/视频生成模型中对齐中间表征与预训练视觉编码器
3DRS 将 3D 表征监督引入 MLLM 以增强空间接地能力
SF 将这一范式迁移到 VLA 领域，用 VGGT 的几何表征作为监督信号

这说明表征对齐是一种跨领域的通用加速和增强范式。

6.3 对齐层选择的深层含义

第 24/32 层（75%深度）最优这个发现很有洞察：

与 Modality Integration Rate（Huang et al., 2024）的研究一致：VLM 深层的视觉和语言模态逐渐融合为模态无关表征
这意味着VLA 中间层存在一个"甜蜜点"——足够深以影响全局，但尚未丢失视觉模态特性
这个发现对其他表征监督方法（如 ReconVLA 的重建监督）也有参考价值

6.4 与 TGM-VLA 的互补性

TGM-VLA 在数据层面提升 3D VLA（关键帧采样优化、点云 Mixup），SF 在表征层面提升（隐式空间对齐）。两者解决的是不同层面的问题，理论上可以组合使用——用 TGM-VLA 的数据增强策略 + SF 的空间表征对齐。

6.5 数据效率的实用价值

5% 数据达到 75.8% 成功率这个结果对真实世界部署意义重大。在真实机器人场景中，数据采集成本极高（每条演示可能需要人类 teleoperation 几分钟），SF 将所需数据量降低到原来的 1/5.9，直接降低了 VLA 落地的数据门槛。

参考

VGGT（Wang et al., CVPR 2025）：SF 使用的 3D 基础模型，提供像素级空间表征作为对齐目标
OpenVLA-OFT（Kim et al., 2025）：SF 在 LIBERO 上的基础模型，提供 Prismatic VLM 骨干
π₀（Black et al., 2024）：SF 在 RoboTwin 上的基础模型，Flow Matching VLA
REPA（Yu et al., 2024）：表征对齐范式的先驱，在扩散模型中对齐中间状态与外部视觉编码器
3DRS（Huang et al., 2025）：将 3D 表征监督引入 MLLM 增强空间接地能力
SpatialVLA（Qu et al., 2025）：显式深度估计辅助的 3D VLA——SF 的主要对比范式
GeoVLA（Sun et al., 2025）：点云输入的显式 3D VLA——SF 在无 3D 输入下达到同等性能

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

Spatial Forcing：隐式空间表征对齐提升 VLA 3D 感知 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 缺乏 3D 空间感知 ​

1.2 显式 3D 方案的局限 ​

1.3 Depth Probing 揭示空间信息不足 ​

二、预备知识 ​

2.1 VLA 中视觉 token 的角色 ​

2.2 VGGT（Visual Geometry Grounded Transformer） ​

三、核心方法：Spatial Forcing ​

3.1 对齐目标 ​

3.2 对齐层选择 ​

3.3 训练目标 ​

3.4 推理阶段 ​

四、实验结果 ​

4.1 LIBERO 基准 ​

4.2 RoboTwin 2.0 基准 ​

4.3 训练效率 ​

4.4 数据效率 ​

4.5 目标表征消融 ​

4.6 真实世界实验 ​

4.7 t-SNE 可视化 ​

五、局限性与未来方向 ​

六、个人思考 ​

6.1 "隐式"3D 的设计哲学 ​

6.2 与 REPA 和 3DRS 的关系 ​

6.3 对齐层选择的深层含义 ​

6.4 与 TGM-VLA 的互补性 ​

6.5 数据效率的实用价值 ​

参考 ​