SPR：See, Plan, Rewind — 进度感知 VLA 的空间子目标规划与自主错误恢复

论文：See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation
作者：Tingjun Dai*, Mingfei Han*, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang
机构：University of Science and Technology of China (USTC), MBZUAI, CUHK, HIT (Shenzhen), ReLER Lab (UTS)
发布时间：2026年03月
🔗 arXiv | 项目主页
会议：CVPR 2026 Findings
分类标签：VLA 进度感知 空间子目标 错误恢复 Rewind MolmoAct LIBERO LIBERO-Plus OOD 鲁棒性

一句话总结

提出 See-Plan-Rewind (SPR) 框架，将语言指令动态分解为带 2D 空间坐标的子目标序列，通过持续循环的 See（识别剩余子任务）→ Plan（规划到下一子目标的 2D 轨迹）→ Rewind（异常时回退到初始位姿）实现闭环进度监控与自主错误恢复，LIBERO 平均 91.8%（+5.0% over MolmoAct），LIBERO-Plus OOD 平均仅 18.8% 性能退化（最小），无需额外失败数据或辅助模型。

一、问题与动机

1.1 进度感知：从抽象到可执行

机器人操作中错误会随时间累积传播，需要 agent 不仅能感知和行动，还要量化地测量自己当前执行到了哪一步。论文将此能力定义为 progress awareness —— 对照具体、可操作的里程碑序列来衡量任务执行进度。

现有工作的进度信号存在两大问题：

方法	问题
ECOT (视觉 CoT)	进度信号是抽象语言描述，缺乏空间落地
MolmoAct (稀疏路径点)	仅规划到最终目标的粗粒度路径，长时域任务中终点可能与当前子任务无关
SeqVLA (检测头)	子任务完成二元标志，无精细空间信息

1.2 错误恢复：数据昂贵或依赖外部模型

现有恢复方法的局限：

FailSafe / RoboFAC / AHA：需要大量专门的失败-恢复数据采集，成本高
REFLECT / COME-robot：依赖 LLM/GPT-4V 外部推理，在未见场景中不可靠
YAY / OLAF：需要人类在线干预，不可扩展

1.3 SPR 的思路

SPR 用一个统一框架同时解决两个问题：

空间子目标规划（See-Plan）：将抽象计划替换为带 2D 坐标的可验证里程碑，提供细粒度、可量化的进度追踪
进度驱动错误恢复（Rewind）：利用进度监控自动检测异常，通过反向演示数据的联合训练学习回退到初始位姿，无需额外失败数据或辅助模型

二、预备知识

2.1 MolmoAct 基线

SPR 构建在 MolmoAct 之上。MolmoAct 是一个基于 Molmo-7B 的 VLA 模型，输出流包括：

深度感知 tokens（深度图编码）
粗粒度 2D 路径点（从当前位置到最终目标）
离散化动作 tokens（7-DoF 末端执行器增量）

问题：路径点直接规划到最终目标，在长时域多步任务中，终点可能与当前子任务空间上不相关甚至误导。

2.2 DINOv3 + SAM 的夹爪检测

SPR 使用 DINOv3 的 patch 级特征匹配定位夹爪端点，再用 SAM 做精细分割：

$x$ 坐标取 SAM 边界框中心（水平精度高）
$y$ 坐标取 DINOv3 检测结果（垂直端点定位准）
所有 2D 坐标离散化到 $[0, 255]$

三、核心方法

3.1 See：空间子任务识别

给定当前观测 $I$ 和任务指令 $T$ ，模型输出：

剩余子任务数量 $n$
每个子任务的语义描述 + 2D 完成坐标 $s_{i} = ({sem}_{i}, {coord}_{i})$

例如：对于"pick up the book and place it in the caddy"，模型输出：

子任务 1：pick up the book at $[80, 146]$
子任务 2：place the book in the back compartment at $[178, 89]$

3.2 Plan：下一子目标轨迹规划

模型生成从当前夹爪位置到下一个子目标（而非最终目标）的 2D 轨迹，最多 5 个路径点。

关键改进：规划到"下一个子目标"而非"最终目标"。在长时域任务中，最终目标可能在完成中间步骤前是空间上无关的，导致端到端轨迹规划失效。

3.3 自回归生成的因式分解

整个输出是一个自回归序列，包含五个 token 流：

p (a, d, n, s, τ ∣ I, T) = p (d) \cdot p (n) \cdot p (s) \cdot p (τ) \cdot p (a)

其中每个分量条件化于观测 $I$ 、指令 $T$ 和所有已生成的 token：

$d$ ：深度感知 tokens
$n$ ：剩余子任务数
$s$ ：子任务规格（语义 + 坐标）
$τ$ ：到下一子目标的 2D 轨迹
$a = (a_{1}, \dots, a_{D})$ ： $D$ 自由度的动作 tokens

3.4 See-Plan 数据自动构建

整个数据构建流程从已有演示数据中自动提取，无需人工标注或额外 VLM。

子任务分割

Pick-and-place 任务：直接利用夹爪状态转换（开/闭）作为子任务边界
非 pick-and-place 任务（如推、关柜门）：使用 Gemini-3 从视频帧序列中标注子任务段

LIBERO 以 pick-and-place 为主，因此主要使用夹爪状态检测 + DeepSeek-R1 生成语义描述。

夹爪轨迹提取

DINOv3 + SAM 检测每帧夹爪 2D 坐标
检测离群点并插值 + 中值滤波平滑（保留子任务边界）
子目标路径点 = 边界帧处的夹爪位置
从当前帧到下一子任务完成帧均匀采样 1-5 个中间路径点

3.5 Rewind：基于进度的错误恢复

Rewind 数据构建

从成功的正向演示中反转第一个子任务段：

时间反转帧序列
取反动作 token 值（反转末端执行器增量）
任务指令设为 "return to initial position"

所有其他监督信号（子任务边界、路径点坐标）自动从 See-Plan 数据流水线继承。

进度异常检测

维护一个 状态记录器（FIFO 队列），持续追踪：

最近 4 步的预测子任务数
最近 8 步的规划 2D 轨迹

两种异常触发条件：

子任务计数异常：子任务数在当前和前一个窗口中都增加（正常应单调递减），表示执行失败导致模型回退到更早阶段
进度停滞：最近 8 步的 2D 轨迹完全相同，表示机器人被困在 OOD 状态（碰撞、错位等），无法生成有效动作

两种异常都要求持续多步才触发，过滤瞬态预测噪声。

Rewind 执行策略

检测到异常后，将任务指令替换为 "return to initial position"，持续 $N$ 步（经验设定 $N = 3$ ）。之后恢复原始指令继续执行。

$N$ 的选择至关重要：

$N < 3$ ：回退不足，无法提供足够的操作空间
$N > 3$ ：手臂偏离过远，可能离开相机视野或进入不可恢复位姿
连续超过 3 步的 rewind 指令会导致位姿畸变

四、实验

4.1 LIBERO 基准

方法	Spatial	Object	Goal	Long	Avg
Diffusion Policy	78.3%	92.5%	68.3%	50.5%	72.4%
OpenVLA	84.7%	88.4%	79.2%	53.7%	76.5%
π₀-fast	96.4%	96.8%	88.6%	60.2%	85.5%
MolmoAct	87.0%	95.4%	87.6%	77.2%	86.8%
SPR (分别训练)	92.4%	93.0%	94.2%	82.8%	90.6%
*SPR (联合训练)**	93.2%	95.4%	93.2%	85.4%	91.8%

关键观察：

SPR 在最具挑战性的 Long 子集上提升最显著（+5.6% / +8.2%），验证了子任务规划对长时域任务的价值
联合训练优于分别训练（91.8% vs 90.6%），说明 SPR 学到了可泛化的进度感知推理，而非过拟合特定任务分布

4.2 LIBERO-Plus OOD 鲁棒性

方法	Background	Robot	Language	Layout	Light	Avg	Avg Drop
OpenVLA	25.3%	4.1%	26.8%	31.6%	4.4%	18.7%	↓57.8%
OpenVLA-OFT	83.6%	30.6%	83.6%	73.2%	91.6%	70.6%	↓27.0%
π₀	78.5%	6.6%	61.0%	70.4%	79.6%	56.6%	↓37.6%
UniVLA	80.0%	50.3%	71.8%	34.3%	59.1%	57.7%	↓37.5%
SPR	86.0%	47.7%	78.5%	69.6%	85.0%	71.8%	↓18.8%

SPR 在 5 种扰动类型中 3 种取得最小退化：

Language (-12.1%)：语义子任务描述帮助应对指令重述
Light (-5.6%)：空间坐标锚定减少光照变化影响
Background (-4.6%)：几何锚定规划不受背景纹理干扰

4.3 真实机器人

任务	MolmoAct	SPR
Pick up the Object	50%	70%
Tidy up the Table (3 objects)	0%	30%
Push-T	0%	40%

Tidy up the Table：MolmoAct 在 3+ 物体时完全失败——粗粒度最终目标规划产生的路径点在复杂场景中变成噪声。SPR 将任务分解为有序子步骤，逐步完成。

Push-T：持续接触操作，夹爪状态无法界定子任务边界，但 SPR 通过 Gemini-3 视频标注成功分解为 5 个阶段（approach → adjust → push → align → fine-tune），验证了框架对非 pick-and-place 任务的泛化。

4.4 消融实验

配置	Spatial	Object	Goal	Long	Avg
MolmoAct 基线	89.4%	92.4%	88.2%	72.4%	85.6%
w/o Rewind (仅 See-Plan)	92.6%	91.8%	92.2%	81.8%	89.6%
SPR (完整)	92.4%	93.0%	94.2%	82.8%	90.6%

See-Plan 贡献 (+4.0%)：空间子目标规划是主要提升来源
Rewind 贡献 (+1.0%)：在更复杂的 Long 和 Goal 子集上效果更明显
语义描述的重要性：去除语义（仅保留 2D 坐标）在 LIBERO-Long 上下降 3.4%，在 LIBERO-Plus 上退化更严重

4.5 推理时步数扩展

随着最大 episode 长度增加（从 300 到 980 步），SPR 和 w/o Rewind 模型持续提升成功率，而 MolmoAct 基线早早饱和。这验证了进度感知模型确实能在更多步数下利用重试能力从更复杂的错误中恢复。

Rewind 机制进一步加速了任务完成效率——减少了重新执行失败子任务所需的时间。

五、局限性

离散动作 token 精度：离散化引入量化误差，精细放置任务中可能放偏（如将杯子放到盘边而非中心）
物理卡住时 Rewind 无效：当机器人被物理约束（如杯子卡在微波炉边缘），Rewind 指令无法产生状态变化，异常检测失灵
Rewind 后仍失败：即使成功回退，模型可能重复同一错误——空间规划和实际动作之间存在根本性不一致（计划准确但执行偏差）
仅验证了 BC：未与 RL 后训练方法结合，Rewind 机制与在线 RL 的兼容性未探索
Rewind 策略过于简单：固定 $N = 3$ 步、固定回退到初始位姿，不够灵活

六、个人思考

6.1 "空间子目标"vs"抽象计划"的关键区别

SPR 的核心洞察是：进度信号必须空间落地才有用。与 ECOT 的语言 CoT、π₀.₅ 的语义子任务相比，SPR 输出的是带 2D 坐标的可验证里程碑。这使得：

进度评估从模糊（"正在接近"）变为精确（坐标距离）
异常检测从不可能变为可计算（子任务计数 + 轨迹变化）

6.2 与 ECOT、SeqVLA 的关系

三者都做 progress awareness，但层次不同：

ECOT：视觉 CoT 输出内部推理过程，进度信号是副产品
SeqVLA：额外检测头判断子任务完成，二元标志
SPR：子任务数 + 语义描述 + 2D 坐标 + 轨迹，最完整的进度表征

SPR 证明了更丰富的进度信号带来更强的鲁棒性——但代价是训练数据构建更复杂。

6.3 Rewind 的优雅与局限

"从成功演示反转构建回退数据"是一个巧妙的零成本策略——不需要专门采集失败数据。但 $N = 3$ 固定步数 + 固定回退到初始位姿过于刚性。更理想的设计：

自适应回退步数（根据异常严重程度）
回退到最近的子任务完成点而非初始位姿
结合 RL 让模型自学最优恢复策略

6.4 联合训练不退化的启示

多数 VLA 在联合训练时性能下降（如 OpenVLA-OFT），但 SPR 反而提升（90.6% → 91.8%）。这说明进度感知推理是跨任务可迁移的结构化知识，模型学到的"如何分解和追踪子任务"能力是通用的。

6.5 LIBERO-Plus 的价值

SPR 在 LIBERO-Plus 上的评估比 LIBERO 更有说服力——6800+ 测试变体覆盖 5 种扰动类型。SPR 18.8% 的平均退化远低于其他 SOTA（π₀ 37.6%、UniVLA 37.5%），证明空间锚定规划对 OOD 鲁棒性的价值。

七、参考

MolmoAct (Lee et al., 2025) — SPR 的基线模型，空间推理动作模型
ECOT (Zawalski et al., 2024) — 视觉 CoT 推理的 VLA
OpenVLA-OFT (Kim et al., 2025) — VLA 高效微调
π₀ (Black et al., 2024) — Flow Matching VLA 基础模型
π₀.₅ (Physical Intelligence, 2025) — 开放世界 VLA
LIBERO (Liu et al., 2023) — 操作基准
LIBERO-Plus (Fei et al., 2025) — OOD 鲁棒性基准
FailSafe (Lin et al., 2025) — 失败推理与恢复
REFLECT (Liu et al., 2023) — LLM 失败经验总结与纠正
DINOv3 (Simeoni et al., 2025) — 视觉特征匹配
SAM (Kirillov et al., 2023) — 通用分割模型
UniVLA (Bu et al., 2025) — 任务中心潜在动作 VLA

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

SPR：See, Plan, Rewind — 进度感知 VLA 的空间子目标规划与自主错误恢复 ​

一句话总结 ​

一、问题与动机 ​

1.1 进度感知：从抽象到可执行 ​

1.2 错误恢复：数据昂贵或依赖外部模型 ​

1.3 SPR 的思路 ​

二、预备知识 ​

2.1 MolmoAct 基线 ​

2.2 DINOv3 + SAM 的夹爪检测 ​

三、核心方法 ​

3.1 See：空间子任务识别 ​

3.2 Plan：下一子目标轨迹规划 ​

3.3 自回归生成的因式分解 ​

3.4 See-Plan 数据自动构建 ​

子任务分割 ​

夹爪轨迹提取 ​

3.5 Rewind：基于进度的错误恢复 ​

Rewind 数据构建 ​

进度异常检测 ​

Rewind 执行策略 ​

四、实验 ​

4.1 LIBERO 基准 ​

4.2 LIBERO-Plus OOD 鲁棒性 ​

4.3 真实机器人 ​

4.4 消融实验 ​

4.5 推理时步数扩展 ​

五、局限性 ​

六、个人思考 ​

6.1 "空间子目标"vs"抽象计划"的关键区别 ​

6.2 与 ECOT、SeqVLA 的关系 ​

6.3 Rewind 的优雅与局限 ​

6.4 联合训练不退化的启示 ​

6.5 LIBERO-Plus 的价值 ​

七、参考 ​