AnchorVLA4D：基于锚帧的时空视觉-语言-动作模型

论文：AnchorVLA4D: an Anchor-Based Spatial-Temporal Vision-Language-Action Model for Robotic Manipulation
作者：Juan Zhu, Zhanying Shao, Xiaoqi Li, Ethan Morgan, Jiadong Xu, Hongwei Fan, Hao Dong
机构：PrimeBot、Peking University
发布时间：2026年3月
🔗 arXiv
发表会议：暂未中稿

一句话总结

AnchorVLA4D 将 episode 的**首帧作为锚帧（anchor）**保留初始场景上下文，并引入轻量冻结空间编码器（Any4D）联合处理锚帧和当前帧提取 3D 几何特征，在不增加额外传感器的前提下缓解遮挡导致的场景遗忘和空间失定向问题，SimplerEnv WidowX 达 64.6%（+13.6%），真实世界 80%（π₀.₅ 基线 50%）。

一、问题与动机

1.1 遮挡导致的场景遗忘（Occlusion-Induced Forgetting）

标准 VLA 仅以当前帧 + 语言指令作为输入条件。当夹爪或被操控物体遮挡目标物体时（如"把胡萝卜放到盘子上"任务中夹爪遮挡了盘子），模型丧失对目标位置的感知，导致手臂无法判断下一步运动方向。

1.2 空间失定向（Spatial Disorientation）

当前 VLA 缺乏精确的空间感知能力，表现为：

在同一位置反复抓取失败，无法从失败中调整策略
缺乏 3D 几何理解，仅依赖 2D 像素信息进行运动规划

1.3 单帧输入的根本局限

传统 VLA 的条件化输入仅为 $(I_{t}, T)$ （当前图像 + 文本指令），丢失了：

时间上下文：初始场景布局、物体初始位置等历史信息
空间细节：缺乏显式的 3D 几何表征

1.4 核心思路

引入锚帧（episode 首帧 $I_{0}$ ）作为持久的场景记忆，同时用预训练空间编码器提取跨帧 3D 几何特征，将 VLA 的条件化从 $(I_{t}, T)$ 扩展为 $(I_{0}, I_{t}, T, SE (I_{0}, I_{t}))$ 。

二、核心方法

2.1 整体架构

AnchorVLA4D 由三个核心组件构成：

a_{i} = AH (VL (I_{anchor}, I_{i}, T), SE (I_{anchor}, I_{i}), S_{i})

其中：

$VL$ ：Qwen2.5-VL（3B）视觉-语言骨干
$SE$ ：Any4D 空间编码器，联合处理锚帧和当前帧
$AH$ ：ScaleDP（400M）扩散动作头
$S_{i}$ ：本体感知状态
$I_{anchor} = I_{0}$ ：episode 首帧

2.2 锚帧机制（Anchor Mechanism）

设计：将 episode 的第一帧 $I_{0}$ 作为锚帧，与当前帧 $I_{t}$ 一同输入 VLM 骨干。

直觉：首帧包含完整的初始场景布局——所有物体的位置、目标区域的外观——这些信息在后续操作中可能被遮挡或改变。锚帧充当一个持久的场景记忆，使模型在遮挡发生时仍能"回忆"目标位置。

效果：

过滤背景噪声，聚焦任务相关物体
提供遮挡场景下的目标位置参考
使模型具备**早期重试（early retrying）**能力——检测到失败后更快发起恢复尝试

2.3 Any4D 空间编码器

Any4D 是一个轻量级预训练模型，能从两帧图像中提取 3D 场景几何特征，无需深度传感器或点云输入。

关键设计：

冻结参数：空间编码器的预训练权重保持冻结，避免在有限机器人数据上过拟合
特征拼接（Concatenation）：将空间编码器输出与 VLM 特征直接拼接后送入动作头
不需要 3D 监督信号，隐式利用预训练获得的几何先验

2.4 三个模型变体

变体	锚帧	空间编码器	参数量	SimplerEnv
VanillaVLA	✗	✗	~3.4B	51.0%
AnchorVLA	✓	✗	~3.4B	60.4%（+9.4%）
AnchorVLA4D	✓	✓（冻结）	~4.4B	64.6%（+13.6%）

渐进式增益：锚帧贡献了主要增益（+9.4%），空间编码器在此基础上进一步提升（+4.2%）。

2.5 扩散动作头

采用 ScaleDP（400M）作为扩散动作头：

基于扩散过程生成连续动作序列
损失函数为预测噪声的 MSE loss
推理时通过去噪过程生成动作块

2.6 训练流程

硬件：Ascend 910B，8 NPU（各 64GB）
预训练：BridgeV2 数据集，30,000 步，batch size 512，学习率 2e-5（恒定）
微调：任务特定子集，15,000 步，batch size 256，cosine decay
权重衰减：1e-2

三、实验结果

3.1 SimplerEnv 仿真实验（WidowX）

方法	参数量	Spoon on Towel	Carrot on Plate	Stack Cube	Eggplant in Basket	平均
OpenVLA	7B	4.2%	0.0%	0.0%	12.5%	4.2%
CogACT-Base	7B+300M	71.7%	50.8%	15.0%	67.5%	51.3%
MemoryVLA	7B+300M	75.0%	75.0%	37.5%	100%	71.9%
AnchorVLA4D	4.4B	79.2%	37.5%	50.0%	91.7%	64.6%

核心发现：

AnchorVLA4D 以更小的模型（4.4B vs 7B+）取得了有竞争力的结果
未使用大规模机器人数据预训练（如 OXE），仅在 BridgeV2 上预训练
在 Spoon on Towel 和 Stack Cube 上超越所有基线

3.2 真实世界实验（xLerobot 平台）

任务	AnchorVLA4D	π₀.₅ 基线
Lift Box（双臂）	90%	—
Open Drawer	80%	—
Rotation（倒水）	70%	—
平均	80%	50%

推理延迟：仿真 0.215s/次（4.65 Hz），真实世界 ~300ms/次
采用 5 动作子集策略实现有效 17 Hz 控制频率
锚帧和空间编码器的额外延迟开销仅 16%

3.3 消融实验

空间编码器冻结 vs 解冻

配置	锚帧	空间编码器	成功率
VanillaVLA	✗	✗	51.0%
AnchorVLA	✓	✗	60.4%
AnchorVLA4D	✓	✓（冻结）	64.6%
AnchorVLA4D	✓	✓（解冻）	59.4%

解冻空间编码器反而下降 5.2%，说明有限的机器人数据会破坏预训练几何先验。

锚帧格式选择

锚帧格式	成功率
$I_{0}$ （首帧）	55.2%
$I_{i - 3}, I_{i - 2}, I_{i - 1}$ （最近 3 帧）	46.9%
$I_{i - 60}, I_{i - 40}, I_{i - 20}$ （间隔帧）	21.9%

首帧作为锚帧远优于历史帧方案。最近 3 帧包含的信息与当前帧高度冗余，而间隔帧丧失了初始场景的完整性。

空间特征融合方式

融合方式	成功率
拼接（Concatenation）	64.6%
Decoder 前交叉注意力	0%
动作头内交叉注意力	46.9%

简单拼接显著优于交叉注意力方案。交叉注意力在 decoder 前引入导致训练完全崩溃（0%），在动作头内也大幅降低性能。

重试行为分析

配置	总体重试次数	成功案例重试	失败案例重试
无锚帧	1.54	1.43	1.66
有锚帧	1.40	1.21	1.68

锚帧模型在成功案例中重试更少（1.21 vs 1.43），说明模型能更早检测到失败并发起更精准的重试，而非沿预设轨迹继续执行。

本体感知状态的影响

配置	仿真（10k 步）	真实世界 Drawer（5k 步）
无本体感知	40.6%	60%
有本体感知	51.0%	50%

在仿真多样化轨迹中，本体感知提供有用辅助信息（+10.4%）。但在真实世界少量数据场景下，本体感知反而降低性能（-10%），因为模型倾向于记忆轨迹而非学习视觉理解。

四、局限性与未来方向

锚帧偏置退化：当执行状态偏离初始状态过远时（如需要大角度旋转夹爪），锚帧的初始状态偏置反而有害。作者提出未来可增量更新锚帧来维持相关性
VLM 能力天花板：VLA 的能力从根本上受限于底层 VLM，锚帧机制只能在 VLM 的能力范围内发挥作用
单一锚帧限制：仅用首帧作为锚帧，对于长时域多阶段任务，中间阶段的场景变化无法被捕捉
推理延迟：虽然额外开销仅 16%，但绝对延迟（~300ms）仍偏高，限制了高频控制场景的应用

五、个人思考

5.1 锚帧思路的简洁优雅

AnchorVLA4D 的核心贡献——用首帧作为持久场景记忆——极其简单却效果显著（+9.4%）。这揭示了当前 VLA 的一个重要瓶颈：单帧条件化丢失了太多任务上下文。有趣的是，这与人类操作的直觉一致：我们在抓取物体前会先"扫一眼"全局场景，这个初始印象会持续指导后续操作。

5.2 与 MemoryVLA 的对比

项目中已有的 MemoryVLA 同样关注 VLA 的时序记忆问题，但路线不同：

MemoryVLA：双流感知-认知记忆库，跨注意力检索 + 门控融合 + 合并压缩，建模完整历史
AnchorVLA4D：仅保留首帧作为锚帧，极致简化

AnchorVLA4D 的消融实验恰好回答了一个问题：为什么不用最近几帧？因为最近帧与当前帧高度冗余，而首帧提供的是互补信息。这是一种极端的"少即是多"设计。

5.3 冻结空间编码器的启示

解冻 Any4D 反而导致性能下降（64.6% → 59.4%），这与 VLA 领域的普遍经验一致：机器人数据太少，容易破坏预训练表征。类似现象在 OpenVLA 的全量微调 vs LoRA 对比中也有体现。这提示我们：在数据有限时，使用冻结的预训练模块作为特征提取器比端到端微调更稳健。

5.4 拼接 vs 交叉注意力的结果令人惊讶

交叉注意力在 decoder 前导致训练崩溃（0%），这暗示空间特征与 VLM 特征的分布差异过大，直接做注意力交互会破坏信息流。简单拼接反而最有效，说明让动作头自行学习特征融合比在中间层强制交互更安全。

5.5 本体感知的双刃剑

真实世界实验中本体感知反而降低性能的发现值得关注。这与 AimBot 的消融结论形成对比——AimBot 发现视觉空间编码的 EE 状态比本体感知向量更有效。两篇论文共同暗示：将空间信息编码到视觉通道比作为独立模态输入更有效，因为 VLM 骨干本身就擅长处理视觉信息。

5.6 局限性值得深思

锚帧偏置退化是一个根本性限制：当任务要求大幅改变场景状态时，首帧反而成为误导信息。增量更新锚帧的方案可能引入新的问题——如何判断何时更新？更新为哪一帧？这本身可能需要额外的决策机制。

参考

Qwen2.5-VL（Wang et al., 2025）：AnchorVLA4D 的视觉-语言骨干
ScaleDP（Ke et al., 2024）：扩散策略动作头
Any4D：轻量级 3D 空间编码器，提供跨帧几何特征
MemoryVLA（Xie et al., 2025）：双流记忆库建模长时域依赖，同类时序增强方案
π₀.₅（Physical Intelligence, 2025）：真实世界基线对比
CogACT（Li et al., 2024）：认知驱动动作生成，仿真基线

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

AnchorVLA4D：基于锚帧的时空视觉-语言-动作模型 ​

一句话总结 ​

一、问题与动机 ​

1.1 遮挡导致的场景遗忘（Occlusion-Induced Forgetting） ​

1.2 空间失定向（Spatial Disorientation） ​

1.3 单帧输入的根本局限 ​

1.4 核心思路 ​

二、核心方法 ​

2.1 整体架构 ​

2.2 锚帧机制（Anchor Mechanism） ​

2.3 Any4D 空间编码器 ​

2.4 三个模型变体 ​

2.5 扩散动作头 ​

2.6 训练流程 ​

三、实验结果 ​

3.1 SimplerEnv 仿真实验（WidowX） ​

3.2 真实世界实验（xLerobot 平台） ​

3.3 消融实验 ​

空间编码器冻结 vs 解冻 ​

锚帧格式选择 ​

空间特征融合方式 ​

重试行为分析 ​

本体感知状态的影响 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 锚帧思路的简洁优雅 ​

5.2 与 MemoryVLA 的对比 ​

5.3 冻结空间编码器的启示 ​

5.4 拼接 vs 交叉注意力的结果令人惊讶 ​

5.5 本体感知的双刃剑 ​

5.6 局限性值得深思 ​

参考 ​