Skip to content

VP-VLA:视觉提示作为 VLA 高层推理与底层控制的接口

论文:VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

作者:Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia

机构:HKUST、CUHK、SmartMore

发布时间:2026年03月

🔗 arXiv

分类标签:VLA 视觉提示 双系统架构 任务分解 空间接地 SAM3 OOD 泛化 RoboCasa SimplerEnv


一句话总结

提出 VP-VLA,将 VLA 解耦为"System 2 规划器"(VLM 任务分解 + SAM3 生成十字准星/边框视觉提示)和"System 1 控制器"(条件化于视觉提示的低层动作生成),通过事件驱动的视觉提示将抽象语言指令转化为精确的空间锚点,辅以视觉接地辅助损失确保策略真正利用视觉标注,在 RoboCasa-GR1-Tabletop 上超越 QwenOFT +5.0%,SimplerEnv 上超越 QwenOFT +8.3% 并优于 π0.5


一、问题与动机

1.1 VLA 的"黑箱瓶颈"

现有 VLA 模型将视觉观测和语言指令直接映射为控制信号,一次前向传播需同时处理指令理解、空间定位和动作生成三个层次的任务。这种单体架构导致:

  • 空间精度差:模型过拟合训练场景分布,而非真正将指令接地到环境中。研究发现将有意义的语言替换为乱码几乎不影响性能,说明 VLA 并未真正依赖语言条件
  • OOD 鲁棒性弱:遇到新物体类别或未见空间位置时频繁失败

1.2 现有中间接口方案的局限

方案代表工作局限
目标图像CoT-VLA静态、单任务,不适应多阶段任务的动态焦点变化
密集几何监督DreamVLA, FlowVLA标注成本高,预测的 affordance 质量不一致
Training-free VLM + 抓取SayCan, AffordGrasp依赖 VLM 输出精确 grounding box,精度有限
端到端 affordance 预测CoA-VLA, HAMSTER难以训练,可能损害推理能力,affordance 不一定可执行

1.3 核心洞察

VLA 失败的根本原因是高层推理和底层执行的耦合。论文借鉴认知科学中的"System 1 / System 2"双系统理论:

  • System 2(慢思考):负责指令理解、任务分解、目标定位——低频率、高认知
  • System 1(快反应):负责视觉运动跟踪、动作生成——高频率、低认知

将两者通过视觉提示这一显式接口连接,而非在同一网络中隐式混合。


二、核心方法

2.1 整体架构

VP-VLA 由两个核心组件组成:

at=πθ(l,ot,Ivpt)=hψ(fω(l,ot,Ivpt))

其中 fω 为 VLM 骨干(Qwen3-VL-4B),hψ 为动作解码器,Ivpt 为视觉提示图像。

2.2 System 2 规划器:事件驱动的任务分解

事件驱动机制。与每帧都执行高层推理不同,PS2 仅在转换事件发生时被触发:

Et=1(|ϕ(St)ϕ(St1)|>ϵ)

其中 ϕ 为状态映射函数。在桌面操作场景中,ϕ 被实例化为夹爪状态——夹爪开合变化(open→closed 或 closed→open)被视为语义阶段切换的物理代理,触发规划器重新评估当前子目标。

用大白话说:只有当机器人"抓住了什么"或"放下了什么"时,才重新规划下一步该做什么。这避免了每帧都运行昂贵的 VLM 推理。

视觉提示生成。事件触发后,分两阶段生成视觉提示:

  1. 语义推理:VLM 规划器识别当前子任务 sk 及其关联实体(目标物体 eobj 和目标位置 eloc):
{sk,eobj,eloc}=VLMplanner(l,ot,St)
  1. 空间接地:分割模型 G(SAM3)将实体名映射为视觉提示 ψt
ψt=G(ot,eobj,eloc)

视觉提示 ψt 包含两种元素:

  • 十字准星 CR2:标记在目标物体质心,作为"pick"操作的交互锚点,将策略的搜索空间从整张图像缩小到局部区域
  • 边框 BR4:标记在目标放置区域,作为"place"操作的空间约束

这些视觉提示被叠加到俯视相机观测上,形成视觉接口图像 Ivpt

2.3 System 1 控制器:视觉提示条件化的动作生成

控制器接收原始观测 ot 和视觉提示图像 Ivpt,输出动作块:

at=πθ(l,ot,Ivpt)

关键在于:视觉提示将 VLA 的任务从"理解意图"转化为"视觉运动跟踪"——控制器只需跟踪图像上的十字准星和边框即可生成精确动作。

2.4 视觉接地辅助目标

仅仅在图像上叠加视觉标注不足以保证模型真正利用它们——模型可能将标注视为图像噪声而忽略。论文引入辅助接地损失,强制模型内化视觉提示的空间坐标。

关键帧(首帧和事件触发帧 Et=1)上,VLM 被额外查询预测:

  • 目标物体十字准星的 2D 坐标 (x,y)
  • 目标位置边框的 4D 坐标 [x1,y1,x2,y2]

坐标被离散化为 N=1000 个均匀 bin,使用交叉熵损失(而非 MSE)优化:

Ltotal=Laction(θ)+λ1eventLgrounding(ω)

其中 λ=0.1接地损失仅反向传播到 VLM 参数 ω,不影响动作解码器 ψ,实现解耦训练。

关键设计选择:

  • 关键帧接地 vs. 全帧接地:仅在关键帧监督(49.4% → 53.8%),全帧密集监督反而性能更低(49.5%),因为冗余/噪声约束会干扰训练
  • 交叉熵 vs. MSE:离散化 + CE loss 提供更锐利的训练信号
  • 分离 vs. 直接叠加:视觉提示作为独立图像输入,避免干扰原始 RGB 特征

2.5 数据准备

  1. 基于规则将原始任务分解为子任务列表
  2. 在关键帧上,VLM 从列表中预测当前子任务及目标物体/位置名称
  3. 使用文本条件分割(SAM3)在所有帧上获取 mask 和边框
  4. 将 mask 质心转化为十字准星,边框转化为放置区域标注
  5. 丢弃有任何失败的 episode,避免引入噪声监督

三、实验结果

3.1 实现细节

  • System 2 规划器:Qwen3-VL-4B-Instruct + SAM3(检测/mask 阈值 0.5)
  • System 1 控制器:QwenOFT 架构(Qwen3-VL-4B-Instruct 替换 Prismatic VLM)
  • 基于 starVLA 框架,8 GPU 训练,VLM lr 105,动作模型 lr 104

3.2 RoboCasa-GR1-Tabletop(24 个厨房桌面任务)

方法平均成功率
QwenPI + Qwen3VL43.9%
Isaac-GR00T N1.647.6%
QwenGR00T + Qwen3VL47.8%
Isaac-GR00T N1.548.2%
QwenOFT + Qwen3VL48.8%
VP-VLA + Qwen3VL53.8%

关键发现

  • 多步关闭任务提升最大:"PnP * to * Close" 从 43.7% 提升到 54.3%(+10.6%),因为这类任务需要三阶段分解(pick → place → close),VP-VLA 的事件驱动分解在此最具优势
  • 新物体泛化显著改善:"PnP Novel From Placemat To Plate" 52.0% → 70.0%,"PnP Novel From Tray To Plate" 56.0% → 66.0%

3.3 SimplerEnv(4 个操作任务)

方法Put SpoonPut CarrotStack GreenPut EggplantAvg
QwenOFT + Qwen3VL58.350.020.870.850.0
π029.262.529.291.653.1
π0.549.364.744.769.757.1
GR00T-N1.6-Bridge64.565.55.593.057.1
VP-VLA + Qwen3VL66.750.020.895.858.3

VP-VLA 以 58.3% 超越 π0.5(57.1%)和 GR00T-N1.6(57.1%),但在 Put Carrot 和 Stack Green 上与 baseline 持平。Put Eggplant 提升最大(70.8% → 95.8%,+25.0%),说明视觉提示对物体定位和目标接地的帮助巨大。

3.4 真实世界实验

(a) 垃圾分类任务(杂乱场景,3 个垃圾桶 × 多个物体):

设置VP-VLAQwenOFT
In-Domain87.5%80.0%
OOD(新物体)85.0%63.3%

VP-VLA 的 ID-OOD 差距仅 2.5%,而 QwenOFT 为 16.7%。典型案例:打乱魔方(与训练集共享语义但视觉不同),QwenOFT 崩溃至 3/10,VP-VLA 保持 9/10。

(b) 颜色属性抓取("pick up the <color> egg"):

设置VP-VLAQwenOFT
In-Domain77.1%58.3%
OOD Color(紫、绿色蛋)75.0%29.2%
OOD Position(未见网格位置)75.0%54.2%

QwenOFT 在新颜色上崩溃至 29.2%,而 VP-VLA 保持 75.0%,ID-OOD Color 差距仅 2.1%,说明视觉提示帮助模型捕捉属性语义而非记忆实例。

(c) 鸡蛋盒精确放置(4×4 网格,语言指定行列坐标):

设置VP-VLAQwenOFT
In-Domain91.3%70.6%
OOD(新行列组合)68.8%55.0%

VP-VLA 在 ID 上接近满分,说明视觉提示(边框标记目标格子)有效消除了空间坐标的语言歧义。

3.5 消融实验

变体平均成功率对比完整模型
w/o grounding(去掉接地损失)49.4%-4.4%
w/ all frame grounding(全帧接地)49.5%-4.3%
w/ point(十字准星→单点)47.3%-6.5%
w/ direct overlay(叠加到原图而非独立图像)50.8%-3.0%
完整 VP-VLA53.8%
  • 接地损失是必要的:去掉后模型可能将视觉提示视为噪声而非语义锚点
  • 选择性接地优于密集接地:全帧监督引入冗余/噪声约束
  • 提示几何影响感知:单点提供的空间范围信息不足,模型更倾向将其视为视觉扰动
  • 独立图像优于直接叠加:避免干扰原始视觉特征

四、局限性与未来方向

  1. 推理延迟:事件触发时需运行 VLM 规划器 + SAM3 分割,虽然通过事件驱动降低了频率,但单次调用仍有较高延迟,不适合高频决策场景
  2. 事件检测过于简单:仅依赖夹爪状态变化作为阶段切换信号,无法处理非抓取操作的阶段转换(如推、滑、旋转)
  3. 视觉提示类型有限:仅支持十字准星和边框两种类型,无法表达更复杂的空间关系(如旋转方向、力度约束、轨迹路径)
  4. SAM3 分割质量依赖:如果 SAM3 对目标物体分割失败或分割噪声大,视觉提示将提供错误的空间引导
  5. Stack Green 任务未提升:SimplerEnv 上 Stack Green Block 成功率(20.8%)与 baseline 持平,说明视觉提示对精细堆叠操作的帮助有限

五、个人思考

5.1 "System 1 / System 2"解耦的设计哲学

VP-VLA 最精巧的设计在于:视觉提示将高层语义接地和底层运动控制完全解耦。System 1 控制器不需要理解"recycle the bottle"这样的抽象指令——它只需看到图像上的十字准星在瓶子上、边框在绿色箱子上,然后执行"移向十字准星 → 抓取 → 移向边框 → 放下"的视觉运动跟踪。这将指令理解的认知负担完全转移给了 System 2 规划器。

5.2 与 AimBot 的视觉提示范式对比

VP-VLA 和 AimBot 都在图像上叠加视觉标注来引导动作,但策略完全不同:

VP-VLAAimBot
标注内容目标物体/位置(十字准星 + 边框)末端执行器状态(瞄准线 + 准星)
信息方向"去哪里"(目标导向)"在哪里"(自我感知)
是否需要额外推理需要 VLM + SAM3仅需末端执行器位姿(<1ms)
多步任务事件驱动切换提示每帧更新

两者理论上可以组合:用 VP-VLA 的目标提示告诉模型"去哪里",同时用 AimBot 的自身状态提示告诉模型"在哪里"。

5.3 接地损失的关键作用

消融实验中,去掉接地损失后成功率从 53.8% 降到 49.4%(-4.4%),几乎退化到 baseline 水平(48.8%)。这说明仅仅在图像上画标注是不够的——必须显式训练模型"看懂"标注。这是一个重要的工程洞察:视觉提示是图像空间中的"弱信号",如果没有显式监督,VLM 可能将其当作无关的视觉伪影。

5.4 事件驱动 vs. 持续推理的效率权衡

VP-VLA 的事件驱动机制是一个优雅的工程折衷:不需要每帧都运行 VLM 规划器(太慢),也不是固定间隔触发(可能错过关键时刻),而是由物理交互状态变化驱动。但这依赖于一个假设:操作任务可被离散化为由夹爪开合分隔的语义阶段。对于连续操作(如推、擦、倒)这个假设不成立,需要更通用的事件检测机制。

5.5 与 3D-MIX 的互补性

3D-MIX 通过 VGGT 3D 特征增强 VLA 的隐式空间感知,VP-VLA 通过视觉提示提供显式空间引导。两者解决的是同一个问题(VLA 的空间精度不足)但从不同角度:

  • 3D-MIX:让模型"看到"3D 几何结构
  • VP-VLA:直接在 2D 图像上"告诉"模型目标在哪里

对于 OOD 新物体场景,VP-VLA 的显式标注更直接有效;对于需要深度/距离理解的精细操作,3D-MIX 的 3D 几何信息更有价值。


参考

  • QwenOFT(Kim et al., 2025):VP-VLA 的主要 baseline,Qwen3-VL 替换 Prismatic VLM 的 OpenVLA-OFT 变体
  • SAM3(Carion et al., 2025):VP-VLA 使用的文本条件分割模型,生成视觉提示的 mask 和边框
  • starVLA(2025):VP-VLA 的训练框架
  • TraceVLA(Zheng et al., 2024):另一种视觉提示范式——在图像上叠加轨迹痕迹引导策略
  • CoT-VLA(Zhao et al., CVPR 2025):视觉思维链——用目标图像作为中间推理表示
  • π0.5(Physical Intelligence, 2025):VP-VLA 在 SimplerEnv 上的主要对比方法
  • GR00T-N1.6(NVIDIA, 2025):VP-VLA 在 RoboCasa 上的主要对比方法