VP-VLA：视觉提示作为 VLA 高层推理与底层控制的接口

论文：VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models
作者：Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
机构：HKUST、CUHK、SmartMore
发布时间：2026年03月
🔗 arXiv
分类标签：VLA 视觉提示 双系统架构 任务分解 空间接地 SAM3 OOD 泛化 RoboCasa SimplerEnv

一句话总结

提出 VP-VLA，将 VLA 解耦为"System 2 规划器"（VLM 任务分解 + SAM3 生成十字准星/边框视觉提示）和"System 1 控制器"（条件化于视觉提示的低层动作生成），通过事件驱动的视觉提示将抽象语言指令转化为精确的空间锚点，辅以视觉接地辅助损失确保策略真正利用视觉标注，在 RoboCasa-GR1-Tabletop 上超越 QwenOFT +5.0%，SimplerEnv 上超越 QwenOFT +8.3% 并优于 $π_{0.5}$ 。

一、问题与动机

1.1 VLA 的"黑箱瓶颈"

现有 VLA 模型将视觉观测和语言指令直接映射为控制信号，一次前向传播需同时处理指令理解、空间定位和动作生成三个层次的任务。这种单体架构导致：

空间精度差：模型过拟合训练场景分布，而非真正将指令接地到环境中。研究发现将有意义的语言替换为乱码几乎不影响性能，说明 VLA 并未真正依赖语言条件
OOD 鲁棒性弱：遇到新物体类别或未见空间位置时频繁失败

1.2 现有中间接口方案的局限

方案	代表工作	局限
目标图像	CoT-VLA	静态、单任务，不适应多阶段任务的动态焦点变化
密集几何监督	DreamVLA, FlowVLA	标注成本高，预测的 affordance 质量不一致
Training-free VLM + 抓取	SayCan, AffordGrasp	依赖 VLM 输出精确 grounding box，精度有限
端到端 affordance 预测	CoA-VLA, HAMSTER	难以训练，可能损害推理能力，affordance 不一定可执行

1.3 核心洞察

VLA 失败的根本原因是高层推理和底层执行的耦合。论文借鉴认知科学中的"System 1 / System 2"双系统理论：

System 2（慢思考）：负责指令理解、任务分解、目标定位——低频率、高认知
System 1（快反应）：负责视觉运动跟踪、动作生成——高频率、低认知

将两者通过视觉提示这一显式接口连接，而非在同一网络中隐式混合。

二、核心方法

2.1 整体架构

VP-VLA 由两个核心组件组成：

a_{t} = π_{θ} (l, o_{t}, I_{v p}^{t}) = h_{ψ} (f_{ω} (l, o_{t}, I_{v p}^{t}))

其中 $f_{ω}$ 为 VLM 骨干（Qwen3-VL-4B）， $h_{ψ}$ 为动作解码器， $I_{v p}^{t}$ 为视觉提示图像。

2.2 System 2 规划器：事件驱动的任务分解

事件驱动机制。与每帧都执行高层推理不同， $P_{S 2}$ 仅在转换事件发生时被触发：

E_{t} = 1 (| ϕ (S_{t}) - ϕ (S_{t - 1}) | > ϵ)

其中 $ϕ$ 为状态映射函数。在桌面操作场景中， $ϕ$ 被实例化为夹爪状态——夹爪开合变化（open→closed 或 closed→open）被视为语义阶段切换的物理代理，触发规划器重新评估当前子目标。

用大白话说：只有当机器人"抓住了什么"或"放下了什么"时，才重新规划下一步该做什么。这避免了每帧都运行昂贵的 VLM 推理。

视觉提示生成。事件触发后，分两阶段生成视觉提示：

语义推理：VLM 规划器识别当前子任务 $s_{k}$ 及其关联实体（目标物体 $e_{o b j}$ 和目标位置 $e_{l o c}$ ）：

{s_{k}, e_{o b j}, e_{l o c}} = VLMplanner (l, o_{t}, S_{t})

空间接地：分割模型 $G$ （SAM3）将实体名映射为视觉提示 $ψ_{t}$ ：

ψ_{t} = G (o_{t}, e_{o b j}, e_{l o c})

视觉提示 $ψ_{t}$ 包含两种元素：

十字准星 $C \in R^{2}$ ：标记在目标物体质心，作为"pick"操作的交互锚点，将策略的搜索空间从整张图像缩小到局部区域
边框 $B \in R^{4}$ ：标记在目标放置区域，作为"place"操作的空间约束

这些视觉提示被叠加到俯视相机观测上，形成视觉接口图像 $I_{v p}^{t}$ 。

2.3 System 1 控制器：视觉提示条件化的动作生成

控制器接收原始观测 $o_{t}$ 和视觉提示图像 $I_{v p}^{t}$ ，输出动作块：

a_{t} = π_{θ} (l, o_{t}, I_{v p}^{t})

关键在于：视觉提示将 VLA 的任务从"理解意图"转化为"视觉运动跟踪"——控制器只需跟踪图像上的十字准星和边框即可生成精确动作。

2.4 视觉接地辅助目标

仅仅在图像上叠加视觉标注不足以保证模型真正利用它们——模型可能将标注视为图像噪声而忽略。论文引入辅助接地损失，强制模型内化视觉提示的空间坐标。

在关键帧（首帧和事件触发帧 $E_{t} = 1$ ）上，VLM 被额外查询预测：

目标物体十字准星的 2D 坐标 $(x, y)$
目标位置边框的 4D 坐标 $[x_{1}, y_{1}, x_{2}, y_{2}]$

坐标被离散化为 $N = 1000$ 个均匀 bin，使用交叉熵损失（而非 MSE）优化：

L_{total} = L_{action} (θ) + λ 1_{event} L_{grounding} (ω)

其中 $λ = 0.1$ 。接地损失仅反向传播到 VLM 参数 $ω$ ，不影响动作解码器 $ψ$ ，实现解耦训练。

关键设计选择：

关键帧接地 vs. 全帧接地：仅在关键帧监督（49.4% → 53.8%），全帧密集监督反而性能更低（49.5%），因为冗余/噪声约束会干扰训练
交叉熵 vs. MSE：离散化 + CE loss 提供更锐利的训练信号
分离 vs. 直接叠加：视觉提示作为独立图像输入，避免干扰原始 RGB 特征

2.5 数据准备

基于规则将原始任务分解为子任务列表
在关键帧上，VLM 从列表中预测当前子任务及目标物体/位置名称
使用文本条件分割（SAM3）在所有帧上获取 mask 和边框
将 mask 质心转化为十字准星，边框转化为放置区域标注
丢弃有任何失败的 episode，避免引入噪声监督

三、实验结果

3.1 实现细节

System 2 规划器：Qwen3-VL-4B-Instruct + SAM3（检测/mask 阈值 0.5）
System 1 控制器：QwenOFT 架构（Qwen3-VL-4B-Instruct 替换 Prismatic VLM）
基于 starVLA 框架，8 GPU 训练，VLM lr $10^{- 5}$ ，动作模型 lr $10^{- 4}$

3.2 RoboCasa-GR1-Tabletop（24 个厨房桌面任务）

方法	平均成功率
QwenPI + Qwen3VL	43.9%
Isaac-GR00T N1.6	47.6%
QwenGR00T + Qwen3VL	47.8%
Isaac-GR00T N1.5	48.2%
QwenOFT + Qwen3VL	48.8%
VP-VLA + Qwen3VL	53.8%

关键发现：

多步关闭任务提升最大："PnP * to * Close" 从 43.7% 提升到 54.3%（+10.6%），因为这类任务需要三阶段分解（pick → place → close），VP-VLA 的事件驱动分解在此最具优势
新物体泛化显著改善："PnP Novel From Placemat To Plate" 52.0% → 70.0%，"PnP Novel From Tray To Plate" 56.0% → 66.0%

3.3 SimplerEnv（4 个操作任务）

方法	Put Spoon	Put Carrot	Stack Green	Put Eggplant	Avg
QwenOFT + Qwen3VL	58.3	50.0	20.8	70.8	50.0
$π_{0}$	29.2	62.5	29.2	91.6	53.1
$π_{0.5}$	49.3	64.7	44.7	69.7	57.1
GR00T-N1.6-Bridge	64.5	65.5	5.5	93.0	57.1
VP-VLA + Qwen3VL	66.7	50.0	20.8	95.8	58.3

VP-VLA 以 58.3% 超越 $π_{0.5}$ （57.1%）和 GR00T-N1.6（57.1%），但在 Put Carrot 和 Stack Green 上与 baseline 持平。Put Eggplant 提升最大（70.8% → 95.8%，+25.0%），说明视觉提示对物体定位和目标接地的帮助巨大。

3.4 真实世界实验

(a) 垃圾分类任务（杂乱场景，3 个垃圾桶 × 多个物体）：

设置	VP-VLA	QwenOFT
In-Domain	87.5%	80.0%
OOD（新物体）	85.0%	63.3%

VP-VLA 的 ID-OOD 差距仅 2.5%，而 QwenOFT 为 16.7%。典型案例：打乱魔方（与训练集共享语义但视觉不同），QwenOFT 崩溃至 3/10，VP-VLA 保持 9/10。

(b) 颜色属性抓取（"pick up the <color> egg"）：

设置	VP-VLA	QwenOFT
In-Domain	77.1%	58.3%
OOD Color（紫、绿色蛋）	75.0%	29.2%
OOD Position（未见网格位置）	75.0%	54.2%

QwenOFT 在新颜色上崩溃至 29.2%，而 VP-VLA 保持 75.0%，ID-OOD Color 差距仅 2.1%，说明视觉提示帮助模型捕捉属性语义而非记忆实例。

(c) 鸡蛋盒精确放置（4×4 网格，语言指定行列坐标）：

设置	VP-VLA	QwenOFT
In-Domain	91.3%	70.6%
OOD（新行列组合）	68.8%	55.0%

VP-VLA 在 ID 上接近满分，说明视觉提示（边框标记目标格子）有效消除了空间坐标的语言歧义。

3.5 消融实验

变体	平均成功率	对比完整模型
w/o grounding（去掉接地损失）	49.4%	-4.4%
w/ all frame grounding（全帧接地）	49.5%	-4.3%
w/ point（十字准星→单点）	47.3%	-6.5%
w/ direct overlay（叠加到原图而非独立图像）	50.8%	-3.0%
完整 VP-VLA	53.8%	—

接地损失是必要的：去掉后模型可能将视觉提示视为噪声而非语义锚点
选择性接地优于密集接地：全帧监督引入冗余/噪声约束
提示几何影响感知：单点提供的空间范围信息不足，模型更倾向将其视为视觉扰动
独立图像优于直接叠加：避免干扰原始视觉特征

四、局限性与未来方向

推理延迟：事件触发时需运行 VLM 规划器 + SAM3 分割，虽然通过事件驱动降低了频率，但单次调用仍有较高延迟，不适合高频决策场景
事件检测过于简单：仅依赖夹爪状态变化作为阶段切换信号，无法处理非抓取操作的阶段转换（如推、滑、旋转）
视觉提示类型有限：仅支持十字准星和边框两种类型，无法表达更复杂的空间关系（如旋转方向、力度约束、轨迹路径）
SAM3 分割质量依赖：如果 SAM3 对目标物体分割失败或分割噪声大，视觉提示将提供错误的空间引导
Stack Green 任务未提升：SimplerEnv 上 Stack Green Block 成功率（20.8%）与 baseline 持平，说明视觉提示对精细堆叠操作的帮助有限

五、个人思考

5.1 "System 1 / System 2"解耦的设计哲学

VP-VLA 最精巧的设计在于：视觉提示将高层语义接地和底层运动控制完全解耦。System 1 控制器不需要理解"recycle the bottle"这样的抽象指令——它只需看到图像上的十字准星在瓶子上、边框在绿色箱子上，然后执行"移向十字准星 → 抓取 → 移向边框 → 放下"的视觉运动跟踪。这将指令理解的认知负担完全转移给了 System 2 规划器。

5.2 与 AimBot 的视觉提示范式对比

VP-VLA 和 AimBot 都在图像上叠加视觉标注来引导动作，但策略完全不同：

	VP-VLA	AimBot
标注内容	目标物体/位置（十字准星 + 边框）	末端执行器状态（瞄准线 + 准星）
信息方向	"去哪里"（目标导向）	"在哪里"（自我感知）
是否需要额外推理	需要 VLM + SAM3	仅需末端执行器位姿（<1ms）
多步任务	事件驱动切换提示	每帧更新

两者理论上可以组合：用 VP-VLA 的目标提示告诉模型"去哪里"，同时用 AimBot 的自身状态提示告诉模型"在哪里"。

5.3 接地损失的关键作用

消融实验中，去掉接地损失后成功率从 53.8% 降到 49.4%（-4.4%），几乎退化到 baseline 水平（48.8%）。这说明仅仅在图像上画标注是不够的——必须显式训练模型"看懂"标注。这是一个重要的工程洞察：视觉提示是图像空间中的"弱信号"，如果没有显式监督，VLM 可能将其当作无关的视觉伪影。

5.4 事件驱动 vs. 持续推理的效率权衡

VP-VLA 的事件驱动机制是一个优雅的工程折衷：不需要每帧都运行 VLM 规划器（太慢），也不是固定间隔触发（可能错过关键时刻），而是由物理交互状态变化驱动。但这依赖于一个假设：操作任务可被离散化为由夹爪开合分隔的语义阶段。对于连续操作（如推、擦、倒）这个假设不成立，需要更通用的事件检测机制。

5.5 与 3D-MIX 的互补性

3D-MIX 通过 VGGT 3D 特征增强 VLA 的隐式空间感知，VP-VLA 通过视觉提示提供显式空间引导。两者解决的是同一个问题（VLA 的空间精度不足）但从不同角度：

3D-MIX：让模型"看到"3D 几何结构
VP-VLA：直接在 2D 图像上"告诉"模型目标在哪里

对于 OOD 新物体场景，VP-VLA 的显式标注更直接有效；对于需要深度/距离理解的精细操作，3D-MIX 的 3D 几何信息更有价值。

参考

QwenOFT（Kim et al., 2025）：VP-VLA 的主要 baseline，Qwen3-VL 替换 Prismatic VLM 的 OpenVLA-OFT 变体
SAM3（Carion et al., 2025）：VP-VLA 使用的文本条件分割模型，生成视觉提示的 mask 和边框
starVLA（2025）：VP-VLA 的训练框架
TraceVLA（Zheng et al., 2024）：另一种视觉提示范式——在图像上叠加轨迹痕迹引导策略
CoT-VLA（Zhao et al., CVPR 2025）：视觉思维链——用目标图像作为中间推理表示
$π_{0.5}$ （Physical Intelligence, 2025）：VP-VLA 在 SimplerEnv 上的主要对比方法
GR00T-N1.6（NVIDIA, 2025）：VP-VLA 在 RoboCasa 上的主要对比方法

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

VP-VLA：视觉提示作为 VLA 高层推理与底层控制的接口 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 的"黑箱瓶颈" ​

1.2 现有中间接口方案的局限 ​

1.3 核心洞察 ​

二、核心方法 ​

2.1 整体架构 ​

2.2 System 2 规划器：事件驱动的任务分解 ​

2.3 System 1 控制器：视觉提示条件化的动作生成 ​

2.4 视觉接地辅助目标 ​

2.5 数据准备 ​

三、实验结果 ​

3.1 实现细节 ​

3.2 RoboCasa-GR1-Tabletop（24 个厨房桌面任务） ​

3.3 SimplerEnv（4 个操作任务） ​

3.4 真实世界实验 ​

3.5 消融实验 ​

四、局限性与未来方向 ​

五、个人思考 ​

5.1 "System 1 / System 2"解耦的设计哲学 ​

5.2 与 AimBot 的视觉提示范式对比 ​

5.3 接地损失的关键作用 ​

5.4 事件驱动 vs. 持续推理的效率权衡 ​

5.5 与 3D-MIX 的互补性 ​

参考 ​