SC-VLA：通过稀疏世界想象实现在线动作纠正的自修正 VLA 框架——原理详解

论文：Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
机构：同济大学、悉尼科技大学、电子科技大学、大数据高等研究院
发布时间：2026年2月
arXiv | 代码

一句话总结

SC-VLA 在 flow matching 基础策略中注入稀疏世界想象（预测任务进度和未来状态变化），并通过残差强化学习在线修正动作——想象结果自身充当密集奖励信号，无需外部奖励模型，在 ManiSkill 上实现 86% 平均成功率、157 步平均完成长度，真实机器人实验提升 14%。

一、问题与动机

1.1 VLA 的静态先验困境

标准 VLA 模型本质上是在拟合训练数据中的统计模式。它们学到的策略依赖于记忆化的数据先验，而非真正理解底层物理动力学。一旦遇到训练分布之外的情况，就容易失败。

1.2 强化学习的外部奖励依赖

RL 通过主动交互来弥补模仿学习的不足，但几乎所有 RL 方法——无论是手工设计奖励还是 VLM 合成奖励——都依赖外部奖励信号来评估策略表现。这些外部信号与模型的内部状态之间存在断裂，引入额外的计算复杂度和系统耦合。

1.3 世界动作模型的隐式预测局限

World Action Models（如 GR-MG、FLARE、WorldVLA）将动作生成和未来预测统一在同一框架中，用隐式的上下文预测约束策略行为。但它们的未来信号通常编码为隐式表征，缺少可解释的物理语义和显式的自评估机制，无法为短时域轨迹提供细粒度的修正信号。

1.4 SC-VLA 的核心立场

SC-VLA 的关键洞察是：让模型自己想象未来的任务进展和状态变化，然后用这些想象结果来指导自身动作的在线修正。奖励信号完全来自模型内部（endogenous），消除了对外部奖励模型的依赖。

二、预备知识

2.1 Flow Matching 基础策略

SC-VLA 采用 Flow Matching (FM) 作为动作生成骨架。给定观测 $o$ ，FM 学习一个条件向量场 $v_{θ}$ ，将先验噪声 $p_{0} (x) = N (x ∣ 0, I)$ 映射到目标动作分布 $p_{1} (x) \approx q (a ∣ o)$ 。

训练时构造最优传输插值路径：

x_{t} = t x_{1} + (1 - t) x_{0}

连接噪声样本 $x_{0} \sim p_{0}$ 和真实动作 $x_{1} \sim q (a ∣ o)$ ，目标速度为 $x_{1} - x_{0}$ 。训练目标是：

L_{FM} (θ) = E_{t, x_{0}, x_{1}, o} [∥ v_{θ} (x_{t}, t, o) - (x_{1} - x_{0}) ∥_{2}^{2}]

推理时从噪声出发，通过求解 ODE 生成最终动作：

x_{1} = x_{0} + \int_{0}^{1} v_{θ} (x_{t}, t, o) d t

用大白话说：FM 不像扩散模型那样走随机去噪路径，而是走确定性的最优传输直线，训练更高效、推理更稳定。

2.2 Soft Actor-Critic (SAC)

SC-VLA 的残差策略优化采用 SAC，一种基于最大熵 RL 的 off-policy 算法。优化目标为：

J (π) = E_{τ \sim π} [\sum_{t = 0}^{\infty} γ^{t} (r (s_{t}, a_{t}) + α H (π (\cdot ∣ s_{t})))]

其中 $H$ 是策略熵， $α$ 是自动调节的温度参数。SAC 的核心优势是样本效率高（off-policy）且训练稳定（熵正则化平衡探索与利用）。

三、核心方法

SC-VLA 是一个两阶段框架：阶段一训练带稀疏世界想象的基础策略，阶段二用残差 RL 在线修正动作。

3.1 阶段一：稀疏世界想象（Sparse World Imagination, SPI）

3.1.1 条件信息处理

多视角图像 $I_{k}$ 通过 SigLIP-2 编码器提取视觉特征，与语言指令 $L$ 拼接后送入 Eagle-2 VLM 处理。为兼顾高层语义理解和底层控制特征，从中间层 $l$ 提取隐藏状态作为条件信号：

o_{mid} = Φ_{VLM}^{(l)} (E_{vis} (I_{k}), L)

直觉：不取最后一层（太抽象），也不取最前面的层（太底层），取中间层兼顾语义和控制信息。

3.1.2 查询序列构造——注入世界想象

这是 SC-VLA 最核心的设计。标准 FM 只有状态查询和动作查询，SC-VLA 在查询序列中显式注入物理预测目标：

q_{input} = [s_{t}, q_{p_{t}}, q_{Δ s_{t}}, q_{a}]

四个组件的含义：

组件	维度	作用
$s_{t}$	$R^{1 \times D}$	当前本体感知状态（关节角度等）
$q_{p_{t}}$	$R^{1 \times D}$	预测当前任务进度 $p_{t}$ ，提供时间演化线索
$q_{Δ s_{t}}$	$R^{1 \times D}$	预测未来状态增量 $Δ s_{t}$ ，捕捉空间位移趋势
$q_{a}$	$R^{16 \times D}$	生成 16 步动作轨迹

为什么叫"稀疏"想象？ 相比视频世界模型生成完整的未来画面（像素级密集预测），SC-VLA 只预测两个标量/向量：一个进度值和一个 7 维状态增量。信息极其精简，但足以指导动作修正。

3.1.3 状态增量的计算

状态增量 $Δ s_{t} \in R^{7}$ 建模的是当前局部坐标系下的短期物理演化。目标时间步为 $t^{'} = t + H + δ$ ，其中 $H$ 是执行时域， $δ \sim U (- Δ, Δ)$ 是随机时间偏移（增强鲁棒性）：

Δ s_{t} = [R_{t}^{⊤} (P_{t^{'}} - P_{t}), Euler (R_{t}^{⊤} R_{t^{'}}), g_{t^{'}} - g_{t}]

其中：

$P \in R^{3}$ ：末端执行器位置
$R \in S O (3)$ ：旋转矩阵
$g \in R$ ：夹爪开合度
$Euler (\cdot)$ ：从相对旋转矩阵提取欧拉角

用大白话说： $Δ s_{t}$ 回答的是"执行完当前这批动作后，机械臂的手会相对于现在移到哪里、转到什么角度、夹爪开合多少"。在局部坐标系下预测，泛化性更好。

3.1.4 联合优化

在 DiT 骨架的 $N$ 个 Transformer block 中：

最终 block（第 $N$ 层） 主要建模动作分布
中间 block（第 $m$ 层） 保留了显式的世界状态表征

从第 $m$ 层提取隐藏表征 $h^{(m)}$ ，用两个轻量 MLP head 分别预测进度和状态增量：

{\hat{p}}_{t} = f_{prog} (h_{p_{t}}^{(m)}), {\hat{Δ s}}_{t} = f_{Δ s_{t}} (h_{Δ s_{t}}^{(m)})

总训练目标为三项联合：

L_{total} = L_{FM} + λ_{1} L_{prog} + λ_{2} L_{Δ s_{t}}

其中 $L_{prog}$ 和 $L_{Δ s_{t}}$ 使用 MSE 损失。

设计哲学：将物理预测放在中间层而非最终层，确保模型在生成动作之前就已经编码了短期物理演化信息。这是一种先想象、再行动的归纳偏置。

3.2.1 为什么需要在线修正？

阶段一的基础策略虽然编码了物理演化信息，但仍受限于离线数据。在遇到分布外扰动或精细接触时，纯离线策略容易失败。阶段二引入残差 RL 模块，在基础策略之上做最小化的在线修正。

3.2.2 残差策略

残差策略 $π_{res}$ 的输入是稀疏世界想象观测 $o_{w} \in R^{16}$ ：

o_{w} = (s_{t}, {\hat{p}}_{t}, {\hat{Δ s}}_{t})

最终执行动作为基础动作加残差：

a_{t} = a_{t}^{base} + λ a_{t}^{res}

其中 $λ$ 是残差缩放系数。基础策略完全冻结，只优化残差网络。

关键设计：残差策略的输入不是原始视觉观测，而是稀疏想象信号。这意味着残差网络能感知基础策略的"意图"（通过 ${\hat{p}}_{t}$ 和 ${\hat{Δ s}}_{t}$ ），从而做出与基础策略方向一致的局部调整，避免在原始高维观测空间中盲目探索。

这一设计遵循 Policy Decorator 的思路——残差模块是轻量 MLP，推理开销极低。

3.2.3 内生密集奖励

这是 SC-VLA 与其他残差 RL 方法的关键区别：密集奖励完全来自模型自身的想象，无需外部奖励模型。

利用预测的短期状态增量 ${\hat{Δ s}}_{t}$ 的前三维（位移分量 ${\hat{Δ s}}_{t}^{pos} \in R^{3}$ ），定义短期目标位置：

P_{goal} = P_{t} + {\hat{Δ s}}_{t}^{pos}

执行残差动作后，根据实际位移与预测方向的一致性计算导向奖励：

r_{t}^{guide} = \frac{(P_{t + n} - P_{t}) \cdot (P_{goal} - P_{t})}{∥ P_{t + n} - P_{t} ∥ \cdot ∥ P_{goal} - P_{t} ∥ + ϵ}

其中 $P_{t + n}$ 是执行动作 $n$ 步后的实际末端位置（ $n < H$ ）。

用大白话说：这个奖励衡量的是**"机械臂实际移动的方向"与"基础策略想象它应该移动的方向"之间的夹角余弦**。

方向一致（ $r^{guide} \approx 1$ ）：残差修正做得好，保持了基础策略的意图
方向偏离（ $r^{guide} \approx 0$ ）：残差修正偏离了轨道
方向相反（ $r^{guide} < 0$ ）：残差修正在帮倒忙

3.2.4 动态权重调度

固定的预测先验在任务后期的精细接触阶段可能因分布偏移而失效。SC-VLA 用预测的任务进度 ${\hat{p}}_{t}$ 作为调度信号，让预测引导在任务早期主导、后期逐渐弱化：

r_{t}^{final} = η ({\hat{p}}_{t}) \cdot w_{guide} \cdot r_{t}^{guide} + r_{t}^{env} - c

其中：

$η (\cdot)$ ：关于进度单调递减的调度函数
$w_{guide}$ ：导向权重（固定为 0.6）
$r_{t}^{env}$ ：环境稀疏奖励
$c$ ：每步时间惩罚

直觉：任务初期（如"伸手去抓"），想象的方向信号很有用，应该大力引导。任务后期（如"精确插入"），需要依赖环境的实际反馈而非预测先验，因此降低想象引导的权重。

3.2.5 三阶段训练协议

为保证从冻结基础策略到残差 RL 的平稳过渡，SC-VLA 使用三阶段训练：

Buffer 预热： $λ = 0$ ，纯基础策略采集高质量轨迹填充 replay buffer
残差注入： $λ$ 从 0 线性升至目标值，让 RL 模块逐步接入
正式训练： $λ$ 固定，SAC 正式优化残差策略

这个设计防止初始随机的残差策略突然破坏基础策略的控制回路。

四、实验结果

4.1 实验设置

仿真平台：ManiSkill3（基于 SAPIEN），包含四个高精度操作任务：

任务	描述	最大步数
StackCube	抓取方块并稳定堆叠到另一个方块上	800
PlaceSphere	拾取球体放到目标位置（球体易滚动）	500
LiftPegUpright	抓取横躺的钉子并竖直立起（需精确角度控制）	800
PegInsertion	精确将钉子插入孔中（小容差插入）	800

每个任务 100 条演示训练，50 个 episode 评估。

基线方法：Diffusion Policy (DP)、ACT、 $π_{0}$ 、GR00T N1.5

4.2 主要结果：成功率

方法	StackCube	PlaceSphere	LiftPegUpright	PegInsertion	平均
DP (多任务)	0.46	0.90	0.10	0.00	0.36
DP (单任务)	0.88	1.00	0.80	0.40	0.77
ACT (多任务)	0.50	0.88	0.60	0.12	0.52
ACT (单任务)	0.64	0.90	0.46	0.04	0.51
$π_{0}$	0.66	0.86	0.48	0.22	0.55
GR00T N1.5	0.78	1.00	0.72	0.40	0.72
SC-VLA (SPI)	0.96	1.00	0.82	0.50	0.82
SC-VLA (SPI+OAR)	1.00	1.00	0.88	0.56	0.86

关键观察：

仅加稀疏想象（SPI） 就将平均成功率从 72%（GR00T N1.5）提升到 82%（+10%），说明预测进度和状态增量本身就增强了物理一致性
加上在线修正（OAR） 进一步提升到 86%（+4%），在 StackCube 上达到完美 100%
在最具挑战性的 PegInsertion 上，SC-VLA (SPI) 相比 $π_{0}$ 提升 28%，相比 GR00T N1.5 提升 10%

4.3 主要结果：执行效率（成功 episode 平均步数）

方法	StackCube	PlaceSphere	LiftPegUpright	PegInsertion	平均
$π_{0}$	265	179	331	331	276
GR00T N1.5	192	122	209	257	195
SC-VLA (SPI)	169	128	190	262	187
SC-VLA (SPI+OAR)	158	110	189	173	157

SC-VLA 实现了最短的平均完成长度 157 步：

比 $π_{0}$ 减少 43%
比 DP 减少 8%
PegInsertion 上步数从 262 降到 173（OAR 贡献 -34%），说明残差修正在精密任务上显著提高了执行效率

4.4 消融实验

想象组件消融

变体	StackCube	PlaceSphere	LiftPegUpright	PegInsertion	平均
w/o 状态增量	0.88	1.00	0.84	0.42	0.78
w/o 进度预测	0.92	1.00	0.80	0.50	0.80
w/o 两者	0.78	1.00	0.72	0.40	0.72
SC-VLA (SPI)	0.96	1.00	0.82	0.50	0.82

关键发现：

状态增量比进度预测更重要：去掉状态增量后 PegInsertion 从 50%→42%（-8%），StackCube 从 96%→88%（-8%）；去掉进度只有轻微下降
两者互补：同时去掉后平均成功率跌回 72%（等于无想象的 GR00T N1.5 基线），比任何单独去掉的情况都差得多
状态增量提供空间方向约束，对接触敏感任务至关重要；进度预测提供时间一致性，对多阶段任务有帮助

想象奖励与动态权重消融

从论文 Figure 4 的学习曲线可以看到：

去掉想象奖励：在简单任务（PlaceSphere）上差别不大，但在复杂任务（PegInsertion）上是灾难性的——平均步数从 650 涨到 800，模型陷入探索瓶颈
用固定权重替代动态调度：在精密任务（PlaceSphere、PegInsertion）上出现严重的后期退化——固定的预测先验在精细操作阶段反而干扰策略，导致步数发散或停滞在次优解

4.5 真实机器人实验

在 ARX5 机械臂上测试，每任务 60 条演示训练，20 次试验评估：

方法	StackCube	PlaceSphere	PushCube	PegInsertion	平均
DP (多任务)	0.30	0.40	0.45	0.00	0.28
GR00T N1.5	0.75	0.45	0.80	0.30	0.57
SC-VLA (SPI)	0.85	0.60	1.00	0.40	0.71

SC-VLA (SPI) 相比 GR00T N1.5 平均提升 14%，相比 DP 提升 43%。在 PushCube 上达到完美 100%。

注：真实世界仅测试了阶段一（SPI），未使用阶段二的在线 RL 修正，因为真实世界的密集奖励设计困难。

五、局限性与未来方向

5.1 真实世界的在线修正缺失

OAR 阶段需要环境交互和密集奖励，目前仅在仿真中验证。如何将基于想象的密集奖励迁移到真实机器人上是一个重要的未来方向。

5.2 稀疏想象的信息瓶颈

只预测进度标量和 7 维状态增量，信息量远少于视频世界模型。在需要全局场景理解的复杂任务中，稀疏想象可能不足以提供充分的约束。

5.3 SAC 的限制

SAC 虽然 off-policy 且样本高效，但在高维动作空间中的探索能力有限。论文中 PegInsertion 任务需要 3M 环境步才能收敛，计算成本不低。

5.4 进度预测的监督信号

进度 $p_{t}$ 的标签隐式假设任务沿时间轴单调推进。对于需要回退或重试的任务，这种线性进度假设可能不合适。

六、个人思考

6.1 与 RISE 的路线对比

SC-VLA 和 RISE 都使用了"想象"来增强 VLA，但哲学截然不同：

维度	RISE	SC-VLA
想象形式	密集（视频世界模型生成完整画面）	稀疏（只预测进度 + 状态增量）
想象用途	作为 RL 环境的替代品	作为策略的辅助预测目标 + 内生奖励源
RL 算法	优势条件化离线 RL	SAC 在线残差 RL
推理开销	零（世界模型仅训练时使用）	极低（轻量残差 MLP）
计算成本	高（16×H100 训练世界模型 7 天）	低（单 GPU 训练基础模型 + 残差策略）

RISE 追求在想象空间中做完整的策略优化（重量级方案），SC-VLA 追求用最小化的想象信号做局部修正（轻量级方案）。两者代表了世界模型用于 VLA 改进的两个极端。

6.2 与 PLD / Policy Decorator 的联系

SC-VLA 的阶段二本质上是 Policy Decorator 的思路——冻结基础策略，训练轻量残差模块。与 PLD 的区别在于：

PLD 的残差策略以原始状态为输入，用环境奖励训练
SC-VLA 的残差策略以想象信号为输入，用内生奖励训练

SC-VLA 的方案更加自洽——残差模块不仅知道"环境当前是什么样"，还知道"基础策略打算做什么"（通过 ${\hat{p}}_{t}$ 和 ${\hat{Δ s}}_{t}$ ）。

6.3 内生奖励的启发性

SC-VLA 最大的贡献可能是"用模型自身的想象作为奖励"这个理念。余弦相似度奖励（公式 14）的设计非常简洁——只需要预测位移方向，然后检查实际是否朝这个方向走。这比 VLM 合成奖励、进度价值函数等方案轻量得多，且与策略内部状态天然对齐。

6.4 动态权重调度的普适性

用任务进度调度引导强度的设计思路（公式 15）可以推广到其他引导式 RL 场景：任何先验引导信号（演示、偏好、VLM 反馈）都可能在任务后期产生干扰，用进度感知的衰减机制来缓解这个问题。

参考

RISE: Self-Improving Robot Policy with Compositional World Model：同期工作，用密集视频世界模型在想象空间做 RL，与 SC-VLA 的稀疏想象形成对比
Policy Decorator: Model-Agnostic Online Refinement：SC-VLA 残差策略结构的直接来源
PLD: Plug-in Language-policy Decorator for VLA：类似的残差 RL + 蒸馏框架，但不使用内生想象奖励
GR00T N1.5：SC-VLA 的基础模型骨架来源，基于 DiT + Flow Matching
π₀：Flow Matching VLA 基础模型，SC-VLA 的基线之一
WoVR：同期工作，用幻觉感知的视频世界模型做完整 episode 的 GRPO 优化
VLA-RL：在线 PPO 微调自回归 VLA，代表纯在线 RL 路线

幻觉缓解

Token 压缩

基础模型

高效推理

推理增强

RL 后训练

SC-VLA：通过稀疏世界想象实现在线动作纠正的自修正 VLA 框架——原理详解 ​

一句话总结 ​

一、问题与动机 ​

1.1 VLA 的静态先验困境 ​

1.2 强化学习的外部奖励依赖 ​

1.3 世界动作模型的隐式预测局限 ​

1.4 SC-VLA 的核心立场 ​

二、预备知识 ​

2.1 Flow Matching 基础策略 ​

2.2 Soft Actor-Critic (SAC) ​

三、核心方法 ​

3.1 阶段一：稀疏世界想象（Sparse World Imagination, SPI） ​

3.1.1 条件信息处理 ​

3.1.2 查询序列构造——注入世界想象 ​

3.1.3 状态增量的计算 ​

3.1.4 联合优化 ​

3.2 阶段二：在线动作修正（Online Action Refinement, OAR） ​

3.2.1 为什么需要在线修正？ ​

3.2.2 残差策略 ​

3.2.3 内生密集奖励 ​

3.2.4 动态权重调度 ​

3.2.5 三阶段训练协议 ​

四、实验结果 ​

4.1 实验设置 ​

4.2 主要结果：成功率 ​

4.3 主要结果：执行效率（成功 episode 平均步数） ​

4.4 消融实验 ​

想象组件消融 ​

想象奖励与动态权重消融 ​

4.5 真实机器人实验 ​

五、局限性与未来方向 ​

5.1 真实世界的在线修正缺失 ​

5.2 稀疏想象的信息瓶颈 ​

5.3 SAC 的限制 ​

5.4 进度预测的监督信号 ​

六、个人思考 ​

6.1 与 RISE 的路线对比 ​

6.2 与 PLD / Policy Decorator 的联系 ​

6.3 内生奖励的启发性 ​

6.4 动态权重调度的普适性 ​

参考 ​