Skip to content

AimBot:用瞄准线和准星增强视觉运动策略的空间感知

论文AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies

作者:Yinpei Dai*, Jayjun Lee*, Yichi Zhang, Ziqiao Ma, Jianing Yang, Amir Zadeh, Chuan Li, Nima Fazeli⋆, Joyce Chai⋆

机构:University of Michigan(CSE & Robotics)、Lambda Labs

发布时间:2025年8月

🔗 arXiv | 项目主页 | 代码

发表会议:CoRL 2025


一句话总结

AimBot 在多视角 RGB 图像上叠加**瞄准线(shooting line)准星(scope reticle)**两种轻量视觉线索,将末端执行器(EE)的位置、朝向和夹爪状态直接编码到像素空间中,无需修改模型架构、推理开销 <1 ms,即可一致性地提升多种 VLA(π₀/π₀-FAST/OpenVLA-OFT)在仿真和真实世界中的操作成功率,尤其在长时域高精度任务上增益显著。


一、问题与动机

1.1 VLA 缺乏显式空间感知

尽管 VLA 模型(π₀、OpenVLA 等)利用大规模预训练获得了强大的视觉-语言理解能力,但它们从 RGB 图像中隐式学习空间关系,缺乏对 EE 与物体之间空间对齐关系的显式感知。这导致:

  • 抓取/放置位置错位:夹爪与目标物体的相对位置判断不精确
  • 朝向对齐困难:EE 的旋转方向难以从 2D 图像中推断
  • 长时域任务失败累积:随着任务步数增加,空间误差不断放大

1.2 现有视觉引导方法的不足

已有方法尝试通过视觉中间表示来增强空间感知,但各有局限:

方法核心思路问题
TraceVLA在图像上叠加历史轨迹 trace需要在线推理 CoTracker(~0.3s/帧),遮挡物体
RoboPointVLM 预测关键点 affordance需要在线推理 13B VLM(>5s/帧),不编码 EE 状态
GENIMA扩散模型生成动作目标叠加图需要在线推理扩散模型
RT-Trajectory条件化于粗略轨迹草图需要在线推理生成草图

共同问题:都需要额外的在线模型推理,引入显著的计算开销和延迟,不适合实时控制。

1.3 AimBot 的核心洞察

借鉴光学瞄准系统(scope reticle)的直觉——瞄准镜能让射手快速判断枪口与目标的空间关系——AimBot 将类似的 2.5D 空间线索叠加到 RGB 图像上:

  • 不需要额外模型推理:仅需 EE 位姿、相机外参和深度图,纯几何计算 <1 ms
  • 不修改模型架构:只是替换输入 RGB 图像,任何 VLA 都能直接使用
  • 同时编码位置+朝向+夹爪状态:一次叠加传递多维空间信息

二、核心方法

2.1 方法总览

AimBot 是一个模型无关的视觉增强技术,对多视角 RGB 图像进行以下增强:

  1. 全局视角(Global View):叠加瞄准线(shooting line),从 EE 原点沿朝向方向延伸到最近表面
  2. 手腕视角(Wrist View):叠加准星(crosshair reticle),以投射停止点为中心,线长随距离动态变化

增强后的 RGB 图像直接替换原始图像用于策略训练和推理。

2.2 3D→2D 投影与可见性判断

给定相机外参 ER4×4、内参 KR3×3、以及世界坐标系中的 3D 点 pwld,通过针孔相机模型投影到图像坐标:

[pcam1]=E[pwld1],pcam=(xc,yc,zc)[ucvc1]K[xc/zcyc/zc1]

可见性条件:投影像素在图像范围内且未被物体遮挡:

0uc<W,0vc<H,zc+ϵ<D[vc,uc]

其中 D[vc,uc] 是深度图在该像素的观测深度,ϵ>0 是防止自遮挡的小阈值。

2.3 起始点与停止点

起始点:始终为 EE 坐标系原点 pwldee,投影到图像坐标 (ucee,vcee)

停止点:从 pwldee 出发,沿 EE 朝向方向 d(如夹爪坐标系的 z 轴)以步长 δ 迭代前进:

pwld(i+1)=pwld(i)+δd,pwld(0)=pwldee

每一步投影并检查可见性,当连续 N 个点不可见(被物体遮挡)或超过最大步数(2 米)时停止。最后一个点 pwld(L) 的投影 (ucsp,vcsp) 即为停止点。

2.4 全局视角:瞄准线

在固定外部相机(前置/肩部)的图像上,从起始点到停止点绘制一条直线:

  • 颜色编码夹爪状态
    • 夹爪打开 → 绿色线 + 红色起始点
    • 夹爪关闭 → 紫色线 + 蓝色起始点

这条线直观地传达了 EE 的位置(线的起点)和朝向(线的方向),以及夹爪状态(颜色)。

2.5 手腕视角:准星

在手腕相机图像上叠加十字准星(crosshair),中心位于停止点投影位置。两个关键设计:

1. 准星位置编码距离信息

停止点 (uwristsp,vwristsp) 的位置随投影距离 δL|d| 变化:

  • EE 距离表面 → 停止点靠近图像中心(透视效应)
  • EE 距离表面 → 停止点偏向夹爪垫片位置

2. 准星线长编码深度

scaling=max(MaxDistzwMaxDist,0)line_length=MinLen+scaling×(MaxLenMinLen)

距离近时线更长、距离远时线更短,提供对最近正交表面距离的视觉指示。


三、实验结果

3.1 LIBERO 仿真实验

三种 VLA 骨干在 LIBERO 四个子集上的成功率(%),每个子集 4 次运行平均:

模型SpatialObjectGoalLong平均
OpenVLA-OFT96.297.393.987.593.8
+ AimBot95.2 (−1.0)99.1 (+1.8)94.2 (+0.3)91.2 (+3.7)95.0 (+1.2)
π₀-FAST96.596.893.681.692.1
+ AimBot96.9 (+0.4)96.8 (+0.0)94.0 (+0.4)87.1 (+5.5)93.7 (+1.6)
π₀96.898.895.885.294.2
+ AimBot96.9 (+0.1)98.4 (−0.4)97.2 (+1.4)91.0 (+5.8)95.9 (+1.7)

核心发现

  • 在最具挑战的 LIBERO-Long 上增益最大:+3.7/+5.5/+5.8
  • 简单任务(Spatial/Object)已接近饱和时增益有限
  • 三种完全不同架构的 VLA 都一致受益,验证了模型无关性

3.2 真实世界实验

5 个高难度任务,每个 10 次试验(7-DoF Franka Panda,3 个 RGB-D 相机):

模型Fruits in BoxBall in DrawerBread in ToasterPlace Coffee CupEgg in CartonTotal
OpenVLA-OFT7/106/104/102/102/1021/50
+ AimBot9/107/109/108/103/1036/50
π₀-FAST10/1010/109/107/106/1042/50
+ AimBot10/1010/1010/109/108/1047/50
π₀7/107/104/105/104/1027/50
+ AimBot10/1010/107/108/108/1043/50
π₀ + TraceVLA8/108/105/102/102/1025/50
π₀ + RoboPoint8/109/104/106/100/1027/50
π₀ + Depth Images7/109/105/107/104/1032/50

核心发现

  • AimBot 在所有模型上大幅提升真实世界表现:OpenVLA-OFT 21→36,π₀ 27→43,π₀-FAST 42→47
  • 大幅超越替代方案:TraceVLA(25/50)和 RoboPoint(27/50)与无引导的 π₀(27/50)持平
  • 直接加入深度图(32/50)也远不如 AimBot(43/50)——真实世界深度数据噪声大,而 AimBot 只用深度做可见性判断,对噪声更鲁棒
  • 计算效率:AimBot <1 ms vs TraceVLA ~0.3s vs RoboPoint >5s

3.3 失败分析

汇总三种 VLA 模型所有失败案例的错位类型:

错位类型w/o AimBotw/ AimBot
抓取位置错位227
抓取朝向错位60
放置位置错位187
放置朝向错位33
其他失败117

AimBot 将抓取位置错位减少 68%抓取朝向错位完全消除,验证了其对空间对齐的显著增强。

3.4 消融实验

AimBot vs 本体感知(Proprioception),在 LIBERO-Long 上:

模型LIBERO-Long
π₀ + AimBot91.0
π₀ + AimBot − proprio.88.0
π₀85.2
π₀ − proprio.83.2
π₀ + AimBot (random)77.4
  • AimBot 无本体感知(88.0)优于仅本体感知(85.2):说明 AimBot 是比本体感知向量更有效的 EE 状态表示
  • 两者结合效果最佳(91.0):互补而非冗余
  • 随机 AimBot(77.4)显著低于正确 AimBot(91.0):确认增益来自有意义的空间信息,而非仅仅是视觉纹理变化

AimBot 变体对比(π₀ 在 LIBERO 上的平均成功率):

设置平均成功率
Default(十字准星 + 动态长度 + 颜色编码)95.9
W/ Plain Color(统一灰色)95.0
W/ Grasp Sense(检测夹爪间物体变色)93.8
W/ Fixed Length(固定准星长度)93.5
W/ Small Scale(缩小线索尺寸)93.8
W/ Bullseye Style(同心圆替代十字)93.3

默认设置最优,但即使使用纯色(95.0),空间线索的几何信息本身就已足够有效。

3.5 OOD 泛化

在物体高度变化、背景颜色变化、闪光灯/冷暖光照变化等分布外条件下(π₀-FAST,5 个任务各 3 次 = 15 次总评估):

  • AimBot:12/15 vs 无 AimBot:7/15

AimBot 的空间线索锚定于深度几何而非视觉外观特征,因此在外观分布偏移下保持有效。


四、局限性与未来方向

  1. 依赖深度传感:需要 RGB-D 传感器或单目深度估计模型,纯 RGB 设置需额外推理开销
  2. 假设附近有表面:瞄准线和准星假设 EE 朝向附近有物体/表面(如桌面任务),在开放空间中空间线索可能投射到远处失效
  3. 不适用于高自由度末端:为平行夹爪设计,扩展到灵巧手需要复杂的手指状态可视化
  4. 受限运动场景效果有限:在 EE 活动范围小且持续持握物体的任务(如工具内操作),投影距离极短,编码的空间信息有限

五、个人思考

5.1 简单到令人惊讶的有效性

AimBot 可能是近期 VLA 领域中投入产出比最高的方法之一。核心贡献就是在 RGB 图像上画几条线,但效果非常显著(π₀ 真实世界从 27/50 提升到 43/50,接近翻倍)。这揭示了一个重要洞察:当前 VLA 的瓶颈不在模型容量,而在输入信息的呈现方式

5.2 与其他空间增强方法的关系

与项目中已有的几篇论文形成有趣对比:

  • SpatialVLA / PointVLA:通过修改模型架构注入 3D 信息,但改变了预训练分布
  • BridgeVLA:用正交投影将 3D 转 2D 对齐输入输出格式,思路类似但更重量级
  • SF:用表征监督隐式对齐 3D 空间,训练时需要 VGGT
  • AimBot:最轻量——不改架构、不改训练流程、不需要额外模型,只改输入图像

AimBot 证明了在像素空间中显式编码空间关系是一种被低估的策略。

5.3 深度信息的聪明使用

直接将深度图作为额外输入(32/50)远不如 AimBot(43/50)。原因在于:

  • 真实世界深度图噪声大、不连续,模型难以从中提取有用信号
  • AimBot 只用深度做单点可见性判断(比较投影深度与观测深度),对噪声极其鲁棒
  • 关键空间信息被预处理并编码为简洁的视觉线索,降低了策略网络的学习负担

5.4 本体感知的角色

消融实验中最有趣的发现:AimBot 无本体感知(88.0)竟然优于有本体感知无 AimBot(85.2)。这暗示将 EE 状态编码到视觉空间比作为独立的本体感知向量输入更有效——可能因为视觉空间中的空间关系更容易被视觉编码器理解和利用。

5.5 局限性值得关注

AimBot 的设计假设(附近有表面、平行夹爪、深度可用)限制了其适用范围。对于双臂灵巧手操作、工具使用、空中操作等场景,需要重新设计视觉线索的形式。但其核心思想——将空间关系显式编码到像素空间——具有更广泛的应用潜力。


参考

  • π₀(Black et al., 2024):Flow Matching VLA,AimBot 的主要骨干之一
  • OpenVLA-OFT(Kim et al., 2025):微调优化 VLA,AimBot 的另一骨干
  • TraceVLA(Zheng et al., 2024):视觉轨迹提示增强 VLA,AimBot 的主要对比基线
  • RoboPoint(Yuan et al., 2024):VLM 预测空间 affordance 关键点,AimBot 的另一对比基线
  • Diffusion Policy(Chi et al., 2024):扩散策略,AimBot 也可适配的 visuomotor policy 范式