AimBot：用瞄准线和准星增强视觉运动策略的空间感知

论文：AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies
作者：Yinpei Dai*, Jayjun Lee*, Yichi Zhang, Ziqiao Ma, Jianing Yang, Amir Zadeh, Chuan Li, Nima Fazeli⋆, Joyce Chai⋆
机构：University of Michigan（CSE & Robotics）、Lambda Labs
发布时间：2025年8月
🔗 arXiv | 项目主页 | 代码
发表会议：CoRL 2025

一句话总结

AimBot 在多视角 RGB 图像上叠加**瞄准线（shooting line）和准星（scope reticle）**两种轻量视觉线索，将末端执行器（EE）的位置、朝向和夹爪状态直接编码到像素空间中，无需修改模型架构、推理开销 <1 ms，即可一致性地提升多种 VLA（π₀/π₀-FAST/OpenVLA-OFT）在仿真和真实世界中的操作成功率，尤其在长时域高精度任务上增益显著。

一、问题与动机

1.1 VLA 缺乏显式空间感知

尽管 VLA 模型（π₀、OpenVLA 等）利用大规模预训练获得了强大的视觉-语言理解能力，但它们从 RGB 图像中隐式学习空间关系，缺乏对 EE 与物体之间空间对齐关系的显式感知。这导致：

抓取/放置位置错位：夹爪与目标物体的相对位置判断不精确
朝向对齐困难：EE 的旋转方向难以从 2D 图像中推断
长时域任务失败累积：随着任务步数增加，空间误差不断放大

1.2 现有视觉引导方法的不足

已有方法尝试通过视觉中间表示来增强空间感知，但各有局限：

方法	核心思路	问题
TraceVLA	在图像上叠加历史轨迹 trace	需要在线推理 CoTracker（~0.3s/帧），遮挡物体
RoboPoint	VLM 预测关键点 affordance	需要在线推理 13B VLM（>5s/帧），不编码 EE 状态
GENIMA	扩散模型生成动作目标叠加图	需要在线推理扩散模型
RT-Trajectory	条件化于粗略轨迹草图	需要在线推理生成草图

共同问题：都需要额外的在线模型推理，引入显著的计算开销和延迟，不适合实时控制。

1.3 AimBot 的核心洞察

借鉴光学瞄准系统（scope reticle）的直觉——瞄准镜能让射手快速判断枪口与目标的空间关系——AimBot 将类似的 2.5D 空间线索叠加到 RGB 图像上：

不需要额外模型推理：仅需 EE 位姿、相机外参和深度图，纯几何计算 <1 ms
不修改模型架构：只是替换输入 RGB 图像，任何 VLA 都能直接使用
同时编码位置+朝向+夹爪状态：一次叠加传递多维空间信息

二、核心方法

2.1 方法总览

AimBot 是一个模型无关的视觉增强技术，对多视角 RGB 图像进行以下增强：

全局视角（Global View）：叠加瞄准线（shooting line），从 EE 原点沿朝向方向延伸到最近表面
手腕视角（Wrist View）：叠加准星（crosshair reticle），以投射停止点为中心，线长随距离动态变化

增强后的 RGB 图像直接替换原始图像用于策略训练和推理。

2.2 3D→2D 投影与可见性判断

给定相机外参 $E \in R^{4 \times 4}$ 、内参 $K \in R^{3 \times 3}$ 、以及世界坐标系中的 3D 点 $p_{wld}$ ，通过针孔相机模型投影到图像坐标：

[\begin{matrix} p_{cam} \\ 1 \end{matrix}] = E \cdot [\begin{matrix} p_{wld} \\ 1 \end{matrix}], p_{cam} = (x_{c}, y_{c}, z_{c})^{⊤}

[\begin{matrix} u_{c} \\ v_{c} \\ 1 \end{matrix}] \propto K [\begin{matrix} x_{c} / z_{c} \\ y_{c} / z_{c} \\ 1 \end{matrix}]

可见性条件：投影像素在图像范围内且未被物体遮挡：

0 \leq u_{c} < W, 0 \leq v_{c} < H, z_{c} + ϵ < D [v_{c}, u_{c}]

其中 $D [v_{c}, u_{c}]$ 是深度图在该像素的观测深度， $ϵ > 0$ 是防止自遮挡的小阈值。

2.3 起始点与停止点

起始点：始终为 EE 坐标系原点 $p_{wld}^{ee}$ ，投影到图像坐标 $(u_{c}^{ee}, v_{c}^{ee})$ 。

停止点：从 $p_{wld}^{ee}$ 出发，沿 EE 朝向方向 $d$ （如夹爪坐标系的 z 轴）以步长 $δ$ 迭代前进：

p_{wld}^{(i + 1)} = p_{wld}^{(i)} + δ \cdot d, p_{wld}^{(0)} = p_{wld}^{ee}

每一步投影并检查可见性，当连续 $N$ 个点不可见（被物体遮挡）或超过最大步数（2 米）时停止。最后一个点 $p_{wld}^{(L)}$ 的投影 $(u_{c}^{sp}, v_{c}^{sp})$ 即为停止点。

2.4 全局视角：瞄准线

在固定外部相机（前置/肩部）的图像上，从起始点到停止点绘制一条直线：

颜色编码夹爪状态：
- 夹爪打开 → 绿色线 + 红色起始点
- 夹爪关闭 → 紫色线 + 蓝色起始点

这条线直观地传达了 EE 的位置（线的起点）和朝向（线的方向），以及夹爪状态（颜色）。

2.5 手腕视角：准星

在手腕相机图像上叠加十字准星（crosshair），中心位于停止点投影位置。两个关键设计：

1. 准星位置编码距离信息：

停止点 $(u_{wrist}^{sp}, v_{wrist}^{sp})$ 的位置随投影距离 $δ L | d |$ 变化：

EE 距离表面远 → 停止点靠近图像中心（透视效应）
EE 距离表面近 → 停止点偏向夹爪垫片位置

2. 准星线长编码深度：

scaling = max (\frac{MaxDist - z_{w}}{MaxDist}, 0)

line_length = MinLen + scaling \times (MaxLen - MinLen)

距离近时线更长、距离远时线更短，提供对最近正交表面距离的视觉指示。

三、实验结果

3.1 LIBERO 仿真实验

三种 VLA 骨干在 LIBERO 四个子集上的成功率（%），每个子集 4 次运行平均：

模型	Spatial	Object	Goal	Long	平均
OpenVLA-OFT	96.2	97.3	93.9	87.5	93.8
+ AimBot	95.2 (−1.0)	99.1 (+1.8)	94.2 (+0.3)	91.2 (+3.7)	95.0 (+1.2)
π₀-FAST	96.5	96.8	93.6	81.6	92.1
+ AimBot	96.9 (+0.4)	96.8 (+0.0)	94.0 (+0.4)	87.1 (+5.5)	93.7 (+1.6)
π₀	96.8	98.8	95.8	85.2	94.2
+ AimBot	96.9 (+0.1)	98.4 (−0.4)	97.2 (+1.4)	91.0 (+5.8)	95.9 (+1.7)

核心发现：

在最具挑战的 LIBERO-Long 上增益最大：+3.7/+5.5/+5.8
简单任务（Spatial/Object）已接近饱和时增益有限
三种完全不同架构的 VLA 都一致受益，验证了模型无关性

3.2 真实世界实验

5 个高难度任务，每个 10 次试验（7-DoF Franka Panda，3 个 RGB-D 相机）：

模型	Fruits in Box	Ball in Drawer	Bread in Toaster	Place Coffee Cup	Egg in Carton	Total
OpenVLA-OFT	7/10	6/10	4/10	2/10	2/10	21/50
+ AimBot	9/10	7/10	9/10	8/10	3/10	36/50
π₀-FAST	10/10	10/10	9/10	7/10	6/10	42/50
+ AimBot	10/10	10/10	10/10	9/10	8/10	47/50
π₀	7/10	7/10	4/10	5/10	4/10	27/50
+ AimBot	10/10	10/10	7/10	8/10	8/10	43/50
π₀ + TraceVLA	8/10	8/10	5/10	2/10	2/10	25/50
π₀ + RoboPoint	8/10	9/10	4/10	6/10	0/10	27/50
π₀ + Depth Images	7/10	9/10	5/10	7/10	4/10	32/50

核心发现：

AimBot 在所有模型上大幅提升真实世界表现：OpenVLA-OFT 21→36，π₀ 27→43，π₀-FAST 42→47
大幅超越替代方案：TraceVLA（25/50）和 RoboPoint（27/50）与无引导的 π₀（27/50）持平
直接加入深度图（32/50）也远不如 AimBot（43/50）——真实世界深度数据噪声大，而 AimBot 只用深度做可见性判断，对噪声更鲁棒
计算效率：AimBot <1 ms vs TraceVLA ~0.3s vs RoboPoint >5s

3.3 失败分析

汇总三种 VLA 模型所有失败案例的错位类型：

错位类型	w/o AimBot	w/ AimBot
抓取位置错位	22	7
抓取朝向错位	6	0
放置位置错位	18	7
放置朝向错位	3	3
其他失败	11	7

AimBot 将抓取位置错位减少 68%、抓取朝向错位完全消除，验证了其对空间对齐的显著增强。

3.4 消融实验

AimBot vs 本体感知（Proprioception），在 LIBERO-Long 上：

模型	LIBERO-Long
π₀ + AimBot	91.0
π₀ + AimBot − proprio.	88.0
π₀	85.2
π₀ − proprio.	83.2
π₀ + AimBot (random)	77.4

AimBot 无本体感知（88.0）优于仅本体感知（85.2）：说明 AimBot 是比本体感知向量更有效的 EE 状态表示
两者结合效果最佳（91.0）：互补而非冗余
随机 AimBot（77.4）显著低于正确 AimBot（91.0）：确认增益来自有意义的空间信息，而非仅仅是视觉纹理变化

AimBot 变体对比（π₀ 在 LIBERO 上的平均成功率）：

设置	平均成功率
Default（十字准星 + 动态长度 + 颜色编码）	95.9
W/ Plain Color（统一灰色）	95.0
W/ Grasp Sense（检测夹爪间物体变色）	93.8
W/ Fixed Length（固定准星长度）	93.5
W/ Small Scale（缩小线索尺寸）	93.8
W/ Bullseye Style（同心圆替代十字）	93.3

默认设置最优，但即使使用纯色（95.0），空间线索的几何信息本身就已足够有效。

3.5 OOD 泛化

在物体高度变化、背景颜色变化、闪光灯/冷暖光照变化等分布外条件下（π₀-FAST，5 个任务各 3 次 = 15 次总评估）：

AimBot：12/15 vs 无 AimBot：7/15

AimBot 的空间线索锚定于深度几何而非视觉外观特征，因此在外观分布偏移下保持有效。

四、局限性与未来方向

依赖深度传感：需要 RGB-D 传感器或单目深度估计模型，纯 RGB 设置需额外推理开销
假设附近有表面：瞄准线和准星假设 EE 朝向附近有物体/表面（如桌面任务），在开放空间中空间线索可能投射到远处失效
不适用于高自由度末端：为平行夹爪设计，扩展到灵巧手需要复杂的手指状态可视化
受限运动场景效果有限：在 EE 活动范围小且持续持握物体的任务（如工具内操作），投影距离极短，编码的空间信息有限

五、个人思考

5.1 简单到令人惊讶的有效性

AimBot 可能是近期 VLA 领域中投入产出比最高的方法之一。核心贡献就是在 RGB 图像上画几条线，但效果非常显著（π₀ 真实世界从 27/50 提升到 43/50，接近翻倍）。这揭示了一个重要洞察：当前 VLA 的瓶颈不在模型容量，而在输入信息的呈现方式。

5.2 与其他空间增强方法的关系

与项目中已有的几篇论文形成有趣对比：

SpatialVLA / PointVLA：通过修改模型架构注入 3D 信息，但改变了预训练分布
BridgeVLA：用正交投影将 3D 转 2D 对齐输入输出格式，思路类似但更重量级
SF：用表征监督隐式对齐 3D 空间，训练时需要 VGGT
AimBot：最轻量——不改架构、不改训练流程、不需要额外模型，只改输入图像

AimBot 证明了在像素空间中显式编码空间关系是一种被低估的策略。

5.3 深度信息的聪明使用

直接将深度图作为额外输入（32/50）远不如 AimBot（43/50）。原因在于：

真实世界深度图噪声大、不连续，模型难以从中提取有用信号
AimBot 只用深度做单点可见性判断（比较投影深度与观测深度），对噪声极其鲁棒
关键空间信息被预处理并编码为简洁的视觉线索，降低了策略网络的学习负担

5.4 本体感知的角色

消融实验中最有趣的发现：AimBot 无本体感知（88.0）竟然优于有本体感知无 AimBot（85.2）。这暗示将 EE 状态编码到视觉空间比作为独立的本体感知向量输入更有效——可能因为视觉空间中的空间关系更容易被视觉编码器理解和利用。

5.5 局限性值得关注

AimBot 的设计假设（附近有表面、平行夹爪、深度可用）限制了其适用范围。对于双臂灵巧手操作、工具使用、空中操作等场景，需要重新设计视觉线索的形式。但其核心思想——将空间关系显式编码到像素空间——具有更广泛的应用潜力。

参考

π₀（Black et al., 2024）：Flow Matching VLA，AimBot 的主要骨干之一
OpenVLA-OFT（Kim et al., 2025）：微调优化 VLA，AimBot 的另一骨干
TraceVLA（Zheng et al., 2024）：视觉轨迹提示增强 VLA，AimBot 的主要对比基线
RoboPoint（Yuan et al., 2024）：VLM 预测空间 affordance 关键点，AimBot 的另一对比基线
Diffusion Policy（Chi et al., 2024）：扩散策略，AimBot 也可适配的 visuomotor policy 范式

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

AimBot：用瞄准线和准星增强视觉运动策略的空间感知 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 缺乏显式空间感知 ​

1.2 现有视觉引导方法的不足 ​

1.3 AimBot 的核心洞察 ​

二、核心方法 ​

2.1 方法总览 ​

2.2 3D→2D 投影与可见性判断 ​

2.3 起始点与停止点 ​

2.4 全局视角：瞄准线 ​

2.5 手腕视角：准星 ​

三、实验结果 ​

3.1 LIBERO 仿真实验 ​

3.2 真实世界实验 ​

3.3 失败分析 ​

3.4 消融实验 ​

3.5 OOD 泛化 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 简单到令人惊讶的有效性 ​

5.2 与其他空间增强方法的关系 ​

5.3 深度信息的聪明使用 ​

5.4 本体感知的角色 ​

5.5 局限性值得关注 ​

参考 ​