VP-VLA:视觉提示作为 VLA 高层推理与底层控制的接口
论文:VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models
作者:Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
机构:HKUST、CUHK、SmartMore
发布时间:2026年03月
🔗 arXiv
分类标签:
VLA视觉提示双系统架构任务分解空间接地SAM3OOD 泛化RoboCasaSimplerEnv
一句话总结
提出 VP-VLA,将 VLA 解耦为"System 2 规划器"(VLM 任务分解 + SAM3 生成十字准星/边框视觉提示)和"System 1 控制器"(条件化于视觉提示的低层动作生成),通过事件驱动的视觉提示将抽象语言指令转化为精确的空间锚点,辅以视觉接地辅助损失确保策略真正利用视觉标注,在 RoboCasa-GR1-Tabletop 上超越 QwenOFT +5.0%,SimplerEnv 上超越 QwenOFT +8.3% 并优于
一、问题与动机
1.1 VLA 的"黑箱瓶颈"
现有 VLA 模型将视觉观测和语言指令直接映射为控制信号,一次前向传播需同时处理指令理解、空间定位和动作生成三个层次的任务。这种单体架构导致:
- 空间精度差:模型过拟合训练场景分布,而非真正将指令接地到环境中。研究发现将有意义的语言替换为乱码几乎不影响性能,说明 VLA 并未真正依赖语言条件
- OOD 鲁棒性弱:遇到新物体类别或未见空间位置时频繁失败
1.2 现有中间接口方案的局限
| 方案 | 代表工作 | 局限 |
|---|---|---|
| 目标图像 | CoT-VLA | 静态、单任务,不适应多阶段任务的动态焦点变化 |
| 密集几何监督 | DreamVLA, FlowVLA | 标注成本高,预测的 affordance 质量不一致 |
| Training-free VLM + 抓取 | SayCan, AffordGrasp | 依赖 VLM 输出精确 grounding box,精度有限 |
| 端到端 affordance 预测 | CoA-VLA, HAMSTER | 难以训练,可能损害推理能力,affordance 不一定可执行 |
1.3 核心洞察
VLA 失败的根本原因是高层推理和底层执行的耦合。论文借鉴认知科学中的"System 1 / System 2"双系统理论:
- System 2(慢思考):负责指令理解、任务分解、目标定位——低频率、高认知
- System 1(快反应):负责视觉运动跟踪、动作生成——高频率、低认知
将两者通过视觉提示这一显式接口连接,而非在同一网络中隐式混合。
二、核心方法
2.1 整体架构
VP-VLA 由两个核心组件组成:
其中
2.2 System 2 规划器:事件驱动的任务分解
事件驱动机制。与每帧都执行高层推理不同,
其中
用大白话说:只有当机器人"抓住了什么"或"放下了什么"时,才重新规划下一步该做什么。这避免了每帧都运行昂贵的 VLM 推理。
视觉提示生成。事件触发后,分两阶段生成视觉提示:
- 语义推理:VLM 规划器识别当前子任务
及其关联实体(目标物体 和目标位置 ):
- 空间接地:分割模型
(SAM3)将实体名映射为视觉提示 :
视觉提示
- 十字准星
:标记在目标物体质心,作为"pick"操作的交互锚点,将策略的搜索空间从整张图像缩小到局部区域 - 边框
:标记在目标放置区域,作为"place"操作的空间约束
这些视觉提示被叠加到俯视相机观测上,形成视觉接口图像
2.3 System 1 控制器:视觉提示条件化的动作生成
控制器接收原始观测
关键在于:视觉提示将 VLA 的任务从"理解意图"转化为"视觉运动跟踪"——控制器只需跟踪图像上的十字准星和边框即可生成精确动作。
2.4 视觉接地辅助目标
仅仅在图像上叠加视觉标注不足以保证模型真正利用它们——模型可能将标注视为图像噪声而忽略。论文引入辅助接地损失,强制模型内化视觉提示的空间坐标。
在关键帧(首帧和事件触发帧
- 目标物体十字准星的 2D 坐标
- 目标位置边框的 4D 坐标
坐标被离散化为
其中
关键设计选择:
- 关键帧接地 vs. 全帧接地:仅在关键帧监督(49.4% → 53.8%),全帧密集监督反而性能更低(49.5%),因为冗余/噪声约束会干扰训练
- 交叉熵 vs. MSE:离散化 + CE loss 提供更锐利的训练信号
- 分离 vs. 直接叠加:视觉提示作为独立图像输入,避免干扰原始 RGB 特征
2.5 数据准备
- 基于规则将原始任务分解为子任务列表
- 在关键帧上,VLM 从列表中预测当前子任务及目标物体/位置名称
- 使用文本条件分割(SAM3)在所有帧上获取 mask 和边框
- 将 mask 质心转化为十字准星,边框转化为放置区域标注
- 丢弃有任何失败的 episode,避免引入噪声监督
三、实验结果
3.1 实现细节
- System 2 规划器:Qwen3-VL-4B-Instruct + SAM3(检测/mask 阈值 0.5)
- System 1 控制器:QwenOFT 架构(Qwen3-VL-4B-Instruct 替换 Prismatic VLM)
- 基于 starVLA 框架,8 GPU 训练,VLM lr
,动作模型 lr
3.2 RoboCasa-GR1-Tabletop(24 个厨房桌面任务)
| 方法 | 平均成功率 |
|---|---|
| QwenPI + Qwen3VL | 43.9% |
| Isaac-GR00T N1.6 | 47.6% |
| QwenGR00T + Qwen3VL | 47.8% |
| Isaac-GR00T N1.5 | 48.2% |
| QwenOFT + Qwen3VL | 48.8% |
| VP-VLA + Qwen3VL | 53.8% |
关键发现:
- 多步关闭任务提升最大:"PnP * to * Close" 从 43.7% 提升到 54.3%(+10.6%),因为这类任务需要三阶段分解(pick → place → close),VP-VLA 的事件驱动分解在此最具优势
- 新物体泛化显著改善:"PnP Novel From Placemat To Plate" 52.0% → 70.0%,"PnP Novel From Tray To Plate" 56.0% → 66.0%
3.3 SimplerEnv(4 个操作任务)
| 方法 | Put Spoon | Put Carrot | Stack Green | Put Eggplant | Avg |
|---|---|---|---|---|---|
| QwenOFT + Qwen3VL | 58.3 | 50.0 | 20.8 | 70.8 | 50.0 |
| 29.2 | 62.5 | 29.2 | 91.6 | 53.1 | |
| 49.3 | 64.7 | 44.7 | 69.7 | 57.1 | |
| GR00T-N1.6-Bridge | 64.5 | 65.5 | 5.5 | 93.0 | 57.1 |
| VP-VLA + Qwen3VL | 66.7 | 50.0 | 20.8 | 95.8 | 58.3 |
VP-VLA 以 58.3% 超越
3.4 真实世界实验
(a) 垃圾分类任务(杂乱场景,3 个垃圾桶 × 多个物体):
| 设置 | VP-VLA | QwenOFT |
|---|---|---|
| In-Domain | 87.5% | 80.0% |
| OOD(新物体) | 85.0% | 63.3% |
VP-VLA 的 ID-OOD 差距仅 2.5%,而 QwenOFT 为 16.7%。典型案例:打乱魔方(与训练集共享语义但视觉不同),QwenOFT 崩溃至 3/10,VP-VLA 保持 9/10。
(b) 颜色属性抓取("pick up the <color> egg"):
| 设置 | VP-VLA | QwenOFT |
|---|---|---|
| In-Domain | 77.1% | 58.3% |
| OOD Color(紫、绿色蛋) | 75.0% | 29.2% |
| OOD Position(未见网格位置) | 75.0% | 54.2% |
QwenOFT 在新颜色上崩溃至 29.2%,而 VP-VLA 保持 75.0%,ID-OOD Color 差距仅 2.1%,说明视觉提示帮助模型捕捉属性语义而非记忆实例。
(c) 鸡蛋盒精确放置(4×4 网格,语言指定行列坐标):
| 设置 | VP-VLA | QwenOFT |
|---|---|---|
| In-Domain | 91.3% | 70.6% |
| OOD(新行列组合) | 68.8% | 55.0% |
VP-VLA 在 ID 上接近满分,说明视觉提示(边框标记目标格子)有效消除了空间坐标的语言歧义。
3.5 消融实验
| 变体 | 平均成功率 | 对比完整模型 |
|---|---|---|
| w/o grounding(去掉接地损失) | 49.4% | -4.4% |
| w/ all frame grounding(全帧接地) | 49.5% | -4.3% |
| w/ point(十字准星→单点) | 47.3% | -6.5% |
| w/ direct overlay(叠加到原图而非独立图像) | 50.8% | -3.0% |
| 完整 VP-VLA | 53.8% | — |
- 接地损失是必要的:去掉后模型可能将视觉提示视为噪声而非语义锚点
- 选择性接地优于密集接地:全帧监督引入冗余/噪声约束
- 提示几何影响感知:单点提供的空间范围信息不足,模型更倾向将其视为视觉扰动
- 独立图像优于直接叠加:避免干扰原始视觉特征
四、局限性与未来方向
- 推理延迟:事件触发时需运行 VLM 规划器 + SAM3 分割,虽然通过事件驱动降低了频率,但单次调用仍有较高延迟,不适合高频决策场景
- 事件检测过于简单:仅依赖夹爪状态变化作为阶段切换信号,无法处理非抓取操作的阶段转换(如推、滑、旋转)
- 视觉提示类型有限:仅支持十字准星和边框两种类型,无法表达更复杂的空间关系(如旋转方向、力度约束、轨迹路径)
- SAM3 分割质量依赖:如果 SAM3 对目标物体分割失败或分割噪声大,视觉提示将提供错误的空间引导
- Stack Green 任务未提升:SimplerEnv 上 Stack Green Block 成功率(20.8%)与 baseline 持平,说明视觉提示对精细堆叠操作的帮助有限
五、个人思考
5.1 "System 1 / System 2"解耦的设计哲学
VP-VLA 最精巧的设计在于:视觉提示将高层语义接地和底层运动控制完全解耦。System 1 控制器不需要理解"recycle the bottle"这样的抽象指令——它只需看到图像上的十字准星在瓶子上、边框在绿色箱子上,然后执行"移向十字准星 → 抓取 → 移向边框 → 放下"的视觉运动跟踪。这将指令理解的认知负担完全转移给了 System 2 规划器。
5.2 与 AimBot 的视觉提示范式对比
VP-VLA 和 AimBot 都在图像上叠加视觉标注来引导动作,但策略完全不同:
| VP-VLA | AimBot | |
|---|---|---|
| 标注内容 | 目标物体/位置(十字准星 + 边框) | 末端执行器状态(瞄准线 + 准星) |
| 信息方向 | "去哪里"(目标导向) | "在哪里"(自我感知) |
| 是否需要额外推理 | 需要 VLM + SAM3 | 仅需末端执行器位姿(<1ms) |
| 多步任务 | 事件驱动切换提示 | 每帧更新 |
两者理论上可以组合:用 VP-VLA 的目标提示告诉模型"去哪里",同时用 AimBot 的自身状态提示告诉模型"在哪里"。
5.3 接地损失的关键作用
消融实验中,去掉接地损失后成功率从 53.8% 降到 49.4%(-4.4%),几乎退化到 baseline 水平(48.8%)。这说明仅仅在图像上画标注是不够的——必须显式训练模型"看懂"标注。这是一个重要的工程洞察:视觉提示是图像空间中的"弱信号",如果没有显式监督,VLM 可能将其当作无关的视觉伪影。
5.4 事件驱动 vs. 持续推理的效率权衡
VP-VLA 的事件驱动机制是一个优雅的工程折衷:不需要每帧都运行 VLM 规划器(太慢),也不是固定间隔触发(可能错过关键时刻),而是由物理交互状态变化驱动。但这依赖于一个假设:操作任务可被离散化为由夹爪开合分隔的语义阶段。对于连续操作(如推、擦、倒)这个假设不成立,需要更通用的事件检测机制。
5.5 与 3D-MIX 的互补性
3D-MIX 通过 VGGT 3D 特征增强 VLA 的隐式空间感知,VP-VLA 通过视觉提示提供显式空间引导。两者解决的是同一个问题(VLA 的空间精度不足)但从不同角度:
- 3D-MIX:让模型"看到"3D 几何结构
- VP-VLA:直接在 2D 图像上"告诉"模型目标在哪里
对于 OOD 新物体场景,VP-VLA 的显式标注更直接有效;对于需要深度/距离理解的精细操作,3D-MIX 的 3D 几何信息更有价值。
参考
- QwenOFT(Kim et al., 2025):VP-VLA 的主要 baseline,Qwen3-VL 替换 Prismatic VLM 的 OpenVLA-OFT 变体
- SAM3(Carion et al., 2025):VP-VLA 使用的文本条件分割模型,生成视觉提示的 mask 和边框
- starVLA(2025):VP-VLA 的训练框架
- TraceVLA(Zheng et al., 2024):另一种视觉提示范式——在图像上叠加轨迹痕迹引导策略
- CoT-VLA(Zhao et al., CVPR 2025):视觉思维链——用目标图像作为中间推理表示
(Physical Intelligence, 2025):VP-VLA 在 SimplerEnv 上的主要对比方法 - GR00T-N1.6(NVIDIA, 2025):VP-VLA 在 RoboCasa 上的主要对比方法