AimBot:用瞄准线和准星增强视觉运动策略的空间感知
论文:AimBot: A Simple Auxiliary Visual Cue to Enhance Spatial Awareness of Visuomotor Policies
作者:Yinpei Dai*, Jayjun Lee*, Yichi Zhang, Ziqiao Ma, Jianing Yang, Amir Zadeh, Chuan Li, Nima Fazeli⋆, Joyce Chai⋆
机构:University of Michigan(CSE & Robotics)、Lambda Labs
发布时间:2025年8月
发表会议:CoRL 2025
一句话总结
AimBot 在多视角 RGB 图像上叠加**瞄准线(shooting line)和准星(scope reticle)**两种轻量视觉线索,将末端执行器(EE)的位置、朝向和夹爪状态直接编码到像素空间中,无需修改模型架构、推理开销 <1 ms,即可一致性地提升多种 VLA(π₀/π₀-FAST/OpenVLA-OFT)在仿真和真实世界中的操作成功率,尤其在长时域高精度任务上增益显著。
一、问题与动机
1.1 VLA 缺乏显式空间感知
尽管 VLA 模型(π₀、OpenVLA 等)利用大规模预训练获得了强大的视觉-语言理解能力,但它们从 RGB 图像中隐式学习空间关系,缺乏对 EE 与物体之间空间对齐关系的显式感知。这导致:
- 抓取/放置位置错位:夹爪与目标物体的相对位置判断不精确
- 朝向对齐困难:EE 的旋转方向难以从 2D 图像中推断
- 长时域任务失败累积:随着任务步数增加,空间误差不断放大
1.2 现有视觉引导方法的不足
已有方法尝试通过视觉中间表示来增强空间感知,但各有局限:
| 方法 | 核心思路 | 问题 |
|---|---|---|
| TraceVLA | 在图像上叠加历史轨迹 trace | 需要在线推理 CoTracker(~0.3s/帧),遮挡物体 |
| RoboPoint | VLM 预测关键点 affordance | 需要在线推理 13B VLM(>5s/帧),不编码 EE 状态 |
| GENIMA | 扩散模型生成动作目标叠加图 | 需要在线推理扩散模型 |
| RT-Trajectory | 条件化于粗略轨迹草图 | 需要在线推理生成草图 |
共同问题:都需要额外的在线模型推理,引入显著的计算开销和延迟,不适合实时控制。
1.3 AimBot 的核心洞察
借鉴光学瞄准系统(scope reticle)的直觉——瞄准镜能让射手快速判断枪口与目标的空间关系——AimBot 将类似的 2.5D 空间线索叠加到 RGB 图像上:
- 不需要额外模型推理:仅需 EE 位姿、相机外参和深度图,纯几何计算 <1 ms
- 不修改模型架构:只是替换输入 RGB 图像,任何 VLA 都能直接使用
- 同时编码位置+朝向+夹爪状态:一次叠加传递多维空间信息
二、核心方法
2.1 方法总览
AimBot 是一个模型无关的视觉增强技术,对多视角 RGB 图像进行以下增强:
- 全局视角(Global View):叠加瞄准线(shooting line),从 EE 原点沿朝向方向延伸到最近表面
- 手腕视角(Wrist View):叠加准星(crosshair reticle),以投射停止点为中心,线长随距离动态变化
增强后的 RGB 图像直接替换原始图像用于策略训练和推理。
2.2 3D→2D 投影与可见性判断
给定相机外参
可见性条件:投影像素在图像范围内且未被物体遮挡:
其中
2.3 起始点与停止点
起始点:始终为 EE 坐标系原点
停止点:从
每一步投影并检查可见性,当连续
2.4 全局视角:瞄准线
在固定外部相机(前置/肩部)的图像上,从起始点到停止点绘制一条直线:
- 颜色编码夹爪状态:
- 夹爪打开 → 绿色线 + 红色起始点
- 夹爪关闭 → 紫色线 + 蓝色起始点
这条线直观地传达了 EE 的位置(线的起点)和朝向(线的方向),以及夹爪状态(颜色)。
2.5 手腕视角:准星
在手腕相机图像上叠加十字准星(crosshair),中心位于停止点投影位置。两个关键设计:
1. 准星位置编码距离信息:
停止点
- EE 距离表面远 → 停止点靠近图像中心(透视效应)
- EE 距离表面近 → 停止点偏向夹爪垫片位置
2. 准星线长编码深度:
距离近时线更长、距离远时线更短,提供对最近正交表面距离的视觉指示。
三、实验结果
3.1 LIBERO 仿真实验
三种 VLA 骨干在 LIBERO 四个子集上的成功率(%),每个子集 4 次运行平均:
| 模型 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| OpenVLA-OFT | 96.2 | 97.3 | 93.9 | 87.5 | 93.8 |
| + AimBot | 95.2 (−1.0) | 99.1 (+1.8) | 94.2 (+0.3) | 91.2 (+3.7) | 95.0 (+1.2) |
| π₀-FAST | 96.5 | 96.8 | 93.6 | 81.6 | 92.1 |
| + AimBot | 96.9 (+0.4) | 96.8 (+0.0) | 94.0 (+0.4) | 87.1 (+5.5) | 93.7 (+1.6) |
| π₀ | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| + AimBot | 96.9 (+0.1) | 98.4 (−0.4) | 97.2 (+1.4) | 91.0 (+5.8) | 95.9 (+1.7) |
核心发现:
- 在最具挑战的 LIBERO-Long 上增益最大:+3.7/+5.5/+5.8
- 简单任务(Spatial/Object)已接近饱和时增益有限
- 三种完全不同架构的 VLA 都一致受益,验证了模型无关性
3.2 真实世界实验
5 个高难度任务,每个 10 次试验(7-DoF Franka Panda,3 个 RGB-D 相机):
| 模型 | Fruits in Box | Ball in Drawer | Bread in Toaster | Place Coffee Cup | Egg in Carton | Total |
|---|---|---|---|---|---|---|
| OpenVLA-OFT | 7/10 | 6/10 | 4/10 | 2/10 | 2/10 | 21/50 |
| + AimBot | 9/10 | 7/10 | 9/10 | 8/10 | 3/10 | 36/50 |
| π₀-FAST | 10/10 | 10/10 | 9/10 | 7/10 | 6/10 | 42/50 |
| + AimBot | 10/10 | 10/10 | 10/10 | 9/10 | 8/10 | 47/50 |
| π₀ | 7/10 | 7/10 | 4/10 | 5/10 | 4/10 | 27/50 |
| + AimBot | 10/10 | 10/10 | 7/10 | 8/10 | 8/10 | 43/50 |
| π₀ + TraceVLA | 8/10 | 8/10 | 5/10 | 2/10 | 2/10 | 25/50 |
| π₀ + RoboPoint | 8/10 | 9/10 | 4/10 | 6/10 | 0/10 | 27/50 |
| π₀ + Depth Images | 7/10 | 9/10 | 5/10 | 7/10 | 4/10 | 32/50 |
核心发现:
- AimBot 在所有模型上大幅提升真实世界表现:OpenVLA-OFT 21→36,π₀ 27→43,π₀-FAST 42→47
- 大幅超越替代方案:TraceVLA(25/50)和 RoboPoint(27/50)与无引导的 π₀(27/50)持平
- 直接加入深度图(32/50)也远不如 AimBot(43/50)——真实世界深度数据噪声大,而 AimBot 只用深度做可见性判断,对噪声更鲁棒
- 计算效率:AimBot <1 ms vs TraceVLA ~0.3s vs RoboPoint >5s
3.3 失败分析
汇总三种 VLA 模型所有失败案例的错位类型:
| 错位类型 | w/o AimBot | w/ AimBot |
|---|---|---|
| 抓取位置错位 | 22 | 7 |
| 抓取朝向错位 | 6 | 0 |
| 放置位置错位 | 18 | 7 |
| 放置朝向错位 | 3 | 3 |
| 其他失败 | 11 | 7 |
AimBot 将抓取位置错位减少 68%、抓取朝向错位完全消除,验证了其对空间对齐的显著增强。
3.4 消融实验
AimBot vs 本体感知(Proprioception),在 LIBERO-Long 上:
| 模型 | LIBERO-Long |
|---|---|
| π₀ + AimBot | 91.0 |
| π₀ + AimBot − proprio. | 88.0 |
| π₀ | 85.2 |
| π₀ − proprio. | 83.2 |
| π₀ + AimBot (random) | 77.4 |
- AimBot 无本体感知(88.0)优于仅本体感知(85.2):说明 AimBot 是比本体感知向量更有效的 EE 状态表示
- 两者结合效果最佳(91.0):互补而非冗余
- 随机 AimBot(77.4)显著低于正确 AimBot(91.0):确认增益来自有意义的空间信息,而非仅仅是视觉纹理变化
AimBot 变体对比(π₀ 在 LIBERO 上的平均成功率):
| 设置 | 平均成功率 |
|---|---|
| Default(十字准星 + 动态长度 + 颜色编码) | 95.9 |
| W/ Plain Color(统一灰色) | 95.0 |
| W/ Grasp Sense(检测夹爪间物体变色) | 93.8 |
| W/ Fixed Length(固定准星长度) | 93.5 |
| W/ Small Scale(缩小线索尺寸) | 93.8 |
| W/ Bullseye Style(同心圆替代十字) | 93.3 |
默认设置最优,但即使使用纯色(95.0),空间线索的几何信息本身就已足够有效。
3.5 OOD 泛化
在物体高度变化、背景颜色变化、闪光灯/冷暖光照变化等分布外条件下(π₀-FAST,5 个任务各 3 次 = 15 次总评估):
- AimBot:12/15 vs 无 AimBot:7/15
AimBot 的空间线索锚定于深度几何而非视觉外观特征,因此在外观分布偏移下保持有效。
四、局限性与未来方向
- 依赖深度传感:需要 RGB-D 传感器或单目深度估计模型,纯 RGB 设置需额外推理开销
- 假设附近有表面:瞄准线和准星假设 EE 朝向附近有物体/表面(如桌面任务),在开放空间中空间线索可能投射到远处失效
- 不适用于高自由度末端:为平行夹爪设计,扩展到灵巧手需要复杂的手指状态可视化
- 受限运动场景效果有限:在 EE 活动范围小且持续持握物体的任务(如工具内操作),投影距离极短,编码的空间信息有限
五、个人思考
5.1 简单到令人惊讶的有效性
AimBot 可能是近期 VLA 领域中投入产出比最高的方法之一。核心贡献就是在 RGB 图像上画几条线,但效果非常显著(π₀ 真实世界从 27/50 提升到 43/50,接近翻倍)。这揭示了一个重要洞察:当前 VLA 的瓶颈不在模型容量,而在输入信息的呈现方式。
5.2 与其他空间增强方法的关系
与项目中已有的几篇论文形成有趣对比:
- SpatialVLA / PointVLA:通过修改模型架构注入 3D 信息,但改变了预训练分布
- BridgeVLA:用正交投影将 3D 转 2D 对齐输入输出格式,思路类似但更重量级
- SF:用表征监督隐式对齐 3D 空间,训练时需要 VGGT
- AimBot:最轻量——不改架构、不改训练流程、不需要额外模型,只改输入图像
AimBot 证明了在像素空间中显式编码空间关系是一种被低估的策略。
5.3 深度信息的聪明使用
直接将深度图作为额外输入(32/50)远不如 AimBot(43/50)。原因在于:
- 真实世界深度图噪声大、不连续,模型难以从中提取有用信号
- AimBot 只用深度做单点可见性判断(比较投影深度与观测深度),对噪声极其鲁棒
- 关键空间信息被预处理并编码为简洁的视觉线索,降低了策略网络的学习负担
5.4 本体感知的角色
消融实验中最有趣的发现:AimBot 无本体感知(88.0)竟然优于有本体感知无 AimBot(85.2)。这暗示将 EE 状态编码到视觉空间比作为独立的本体感知向量输入更有效——可能因为视觉空间中的空间关系更容易被视觉编码器理解和利用。
5.5 局限性值得关注
AimBot 的设计假设(附近有表面、平行夹爪、深度可用)限制了其适用范围。对于双臂灵巧手操作、工具使用、空中操作等场景,需要重新设计视觉线索的形式。但其核心思想——将空间关系显式编码到像素空间——具有更广泛的应用潜力。
参考
- π₀(Black et al., 2024):Flow Matching VLA,AimBot 的主要骨干之一
- OpenVLA-OFT(Kim et al., 2025):微调优化 VLA,AimBot 的另一骨干
- TraceVLA(Zheng et al., 2024):视觉轨迹提示增强 VLA,AimBot 的主要对比基线
- RoboPoint(Yuan et al., 2024):VLM 预测空间 affordance 关键点,AimBot 的另一对比基线
- Diffusion Policy(Chi et al., 2024):扩散策略,AimBot 也可适配的 visuomotor policy 范式