Skip to content

ProgressVLA:进度引导的扩散策略

论文Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

作者:Hongyu Yan, Qiwei Li, Jiaolong Yang, Yadong Mu

机构:Peking University、Microsoft Research Asia (MSRA)

发布时间:2026年3月

🔗 arXiv

分类标签进度估计 Classifier Guidance 潜在动作空间 世界模型 扩散策略 长时域操作


一句话总结

观察到现有 VLA 缺乏显式的任务进度感知导致长时域任务中动作生成缺乏目标导向、依赖脆弱的手工终止启发式,提出 ProgressVLA——在 OXE 上预训练视觉-语言条件化进度估计器([0,1] 标量,CALVIN 上残差仅 0.07),通过逆动力学世界模型将候选潜在动作映射到未来视觉状态,进度估计器对该未来状态打分并反向传播梯度作为 classifier guidance 引导扩散去噪过程朝"最大进度"方向采样,配合 KL 正则化在线 RL 微调进一步提升鲁棒性。CALVIN ABC→D 平均完成 3.73(5-in-a-row 52.0→67.2)、LIBERO 平均 84.5%、真实世界成功率 76%(Octo 23%),同时步数从 187.9 降至 53.3。


一、问题与动机

1.1 VLA 缺乏进度感知

现有 VLA 模型(无论是自回归 tokenization、直接回归还是扩散策略)在生成动作时,仅以视觉和语言作为条件输入,缺少一个显式的、稠密的任务进度信号。这导致:

  1. 长时域任务效率低下:生成的轨迹可能"看起来合理但不推进任务",浪费大量无效动作
  2. 终止依赖脆弱启发式:没有原则性的方法判断"任务什么时候算完成",只能靠手工阈值
  3. 级联子目标任务失败:一旦某个子目标偏离,后续子目标没有纠错机制

论文用一组初步实验(Tab. I)证明了进度引导的价值:在 CALVIN 上仅加入进度引导采样就将 Pearson 相关性从 0.722 提升到 0.934、步数从 90.4 降到 77.3、成功率从 92.7 提升到 93.6。

1.2 从原始像素学习进度的困难

直接从像素学习进度信号面临大量干扰变量(相机抖动、背景变化、干扰物体),简单的学习目标很容易将这些干扰与任务动态混淆,导致进度信号嘈杂且与真实目标完成度对齐差。

1.3 核心思路

ProgressVLA 的解决方案分三步:

  1. 预训练进度估计器:在 OXE 大规模数据上学习一个以语言和视觉为条件的标量进度回归器
  2. 世界模型想象未来:给定候选动作,逆动力学世界模型预测未来视觉状态
  3. 进度梯度引导扩散:进度估计器对想象的未来状态打分,梯度反向传播到潜在动作空间,作为 classifier guidance 引导扩散策略朝高进度方向采样

二、核心方法

2.1 进度估计器

进度估计器 P 接收语言指令 l、初始观测 o0(全局任务锚点)和当前观测 ot,输出 [0,1] 标量进度分数:

p=P(l,o0,ot),p[0,1]

训练使用 L1 损失:

Lprog=|pp|

其中 ground-truth 进度标签 p=t/T(归一化时间步)。使用归一化时间步作为进度的代理是因为专家演示轨迹本身就是稳步推进任务的,因此时间与进度近似单调对应。

架构:DINOv2 提取视觉 patch 特征 + CLIP ViT-L/14 提取文本特征 → 投影到共享嵌入空间 → 三层交叉注意力(语言→当前视觉、当前视觉→起始视觉、视觉→语言)→ 均值池化 + MLP + sigmoid 输出。

2.2 动作导向的世界模型

世界模型由编码器(逆动力学模型)和解码器(前向动力学模型)组成,在 DINOv2 特征空间(而非像素空间)中运作:

  • 编码器(逆动力学):从两帧观测推断潜在动作

    az=E(ot,ot+N)
  • 解码器(前向动力学):从当前观测和潜在动作预测未来观测

    ot+N=D(ot,az)

训练目标:

Lworld=tot+Not+N2+KL(az,N(0,I))

KL 正则化确保潜在动作分布稳定,便于下游扩散策略预测。

2.3 联合微调

世界模型和进度估计器预训练后,通过联合损失对齐潜在动力学与任务进度评估:

pt+N=P(l,o0,D(ot,at:t+Nz))Ljoint=pt+Npt+NLft=Lworld+Lprog+Ljoint

用大白话说:确保世界模型想象的未来状态能被进度估计器准确评估,两者的信息对齐是后续 classifier guidance 有效的前提。

2.4 进度引导的扩散策略

策略采用两阶段扩散

  1. Latent Action Expert:在跨构型无关的潜在动作空间中生成 action chunk at:t+Nz(关注高层任务策略)
  2. Action Decoder:将 at:t+Nz 映射为低层可执行动作序列 at:t+N

Classifier Guidance 机制

在扩散去噪过程中,给定当前噪声样本 xτ

  1. 世界模型预测未来视觉状态:o^t+N=D(ot,xτ)
  2. 进度估计器对未来状态打分:p^t+N=P(l,o0,o^t+N)
  3. 由于 p^t+Nxτ 可微,计算梯度引导去噪方向:
xτ1=μθ(xτ,τ,c)+sxτp^t+N+στϵ

其中 s 控制引导强度,xτp^t+N 将采样推向更高进度的动作方向。

用大白话说:每一步去噪时,不仅按照扩散模型自身的分布走,还额外加了一个"朝着任务完成度更高的方向"的推力。这和扩散模型中经典的 classifier guidance 完全同源——只是这里的 classifier 是"进度估计器"。

2.5 在线 RL 微调

在推理时 classifier guidance 的基础上,ProgressVLA 还支持在线 RL 微调进一步提升鲁棒性:

a) 进度估计器微调:从成功轨迹中挖掘进度非单调异常点,用 margin-based 单调性损失修正:

Lmono=tIanommax(0,ϵ(p^tp^t))

b) 扩散策略微调:将进度最大化转化为 KL 正则化策略改进问题:

π(a|s)πθ(a|s)exp(1αQ(s,a))

其中 Q(s,a)=P(l,o0,D(ot,az))。对于扩散策略,这等价于修改去噪目标:

ϵ~=ϵσtαxτQ(s,xτ)Lpolicy=E[ϵ~ϵθ(xτ,τ,l,ot)2]

三、实验结果

3.1 CALVIN(ABC→D)

方法输入12345Avg.Len.
RoboFlamingoS-RGB,G-RGB82.461.946.633.123.52.47
GR-MGS-RGBD,G-RGBD,P96.889.381.572.764.44.04
DitaS-RGB94.582.572.861.350.03.61
ProgressVLA (w/o CG)S-RGB89.476.863.052.243.13.24
Pretrained (w/o CG)S-RGB92.781.670.160.951.63.57
Pretrained (w/ CG)S-RGB93.682.471.260.852.83.61
Pretrained (w/ Pretrained CG)S-RGB93.682.072.063.656.43.68
ProgressVLA (Full)S-RGB95.284.873.667.252.03.73

关键发现:

  1. 预训练贡献大:预训练扩散策略 vs. 从头训练,Avg.Len. 3.24→3.57
  2. CG 依赖可靠估计器:预训练估计器的 CG 比从头训练估计器的 CG 提升更大(5-in-a-row 52.8→56.4)
  3. RL 微调进一步提升:Full 版本在 1-4 子任务上全面最优,Avg.Len. 3.73

3.2 LIBERO

方法SpatialObjectGoalLongAverage
OpenVLA84.788.479.253.776.5
Dita84.296.385.463.882.4
ProgressVLA w/o CG83.295.084.663.281.5
ProgressVLA w/ CG85.896.186.065.483.3
ProgressVLA Full88.296.487.266.284.5

CG 在所有子集上一致提升(81.5→83.3),Full 进一步到 84.5。在长时域 LIBERO-LONG 上对比 OpenVLA 优势明显(66.2 vs. 53.7,+23%)。

3.3 真实世界

方法成功率↑平均距离↓平均步数↓
Octo23%1.30m187.9
ProgressVLA (w/o CG)66%0.96m100.8
ProgressVLA (w/ CG)76%0.81m53.3

CG 不仅提升成功率(66→76),还大幅减少冗余运动(步数 100.8→53.3,-47%),说明进度引导让动作更果断、更目标导向。

3.4 进度估计器泛化性(Tab. V)

场景方法Pearson↑Stop↑MAE↓
原始From Scratch0.91253.80.14
原始Finetuned0.97782.10.10
光照变化From Scratch0.8093.60.24
光照变化Finetuned0.95380.80.12
新物体From Scratch0.81037.50.15
新物体Finetuned0.97281.20.11

预训练+微调的估计器在光照变化和新物体两种 OOD 场景下均保持强鲁棒性,而从头训练的估计器在光照变化下几乎完全失效(Stop 3.6%)。


四、局限性与未来方向

  1. 进度标签的简化假设:使用归一化时间步 p=t/T 作为进度代理,隐含假设专家演示是匀速推进的。对于有"等待"或"探索"阶段的复杂任务,这一假设可能不成立
  2. 世界模型容量受限:当前世界模型是短时域想象(一个 action chunk 对应一步预测),无法进行多步前向规划
  3. 推理开销:CG 需要在每个扩散步进行梯度计算(前向世界模型 + 反向传播),增加了推理延迟
  4. 仅在 RGB 输入上验证:虽然相机支持 RGB-D,但当前方法仅使用 RGB

五、个人思考

5.1 进度估计作为通用 VLA 组件

这篇工作的核心洞察——VLA 需要一个显式的稠密进度信号——非常有价值。当前大量 VLA 工作聚焦于动作生成的质量(更好的架构、更多的数据),但忽略了"生成的动作是否在推进任务"这个根本性问题。ProgressVLA 提出的进度估计器实际上可以作为一个通用组件,与任何 VLA 策略结合使用。

5.2 与已读论文的联系

  • 与 RISE 的互补:RISE 使用组合式世界模型在想象空间中做 RL 自改进,ProgressVLA 使用世界模型做进度引导的 classifier guidance。两者都利用世界模型避免真实交互,但策略改进机制不同——RISE 是完整的在线 RL 循环,ProgressVLA 是推理时的梯度引导 + 可选的轻量 RL 微调
  • 与 ReWiND / Robo-Dopamine / ROBOMETER 的关系:这些工作都涉及进度/奖励模型的预训练。ReWiND 用 video rewind 学进度预测、Robo-Dopamine 训练通用过程奖励模型、ROBOMETER 用帧级进度+轨迹偏好。ProgressVLA 的进度估计器可视为同类工作,但独特之处在于将进度信号直接嵌入扩散采样过程(通过 classifier guidance),而非仅作为后处理排序器或 RL 奖励
  • 与 UniVLA 的架构关联:ProgressVLA 的世界模型直接采用 UniVLA 的架构(DINOv2 特征空间 + VQ 离散化),Latent Action Expert 也使用 UniVLA 风格的潜在动作表示,说明潜在动作空间的标准化正在成为 VLA 领域的趋势
  • 与 WMPO 的对比:WMPO 也使用世界模型在隐空间做 PPO 后训练,但其进度信号是标准的 RL 奖励。ProgressVLA 更进一步,将进度信号直接融入扩散去噪的每一步(classifier guidance),理论上比 RL 更细粒度地影响动作生成

5.3 Classifier Guidance 在机器人策略中的前景

ProgressVLA 展示了一个优雅的范式:预训练可微的评估器 → 在扩散采样时反向传播梯度引导。这个范式不局限于进度估计——任何可微的奖励/约束函数都可以用同样的方式注入扩散策略。例如安全约束、能效优化、人类偏好等。这可能是扩散策略相比自回归 VLA 的一个结构性优势——自回归模型的离散采样过程很难进行连续的梯度引导。

5.4 待验证的问题

  • 进度估计器在非操作类任务(如导航、双臂协调)上是否同样有效?
  • classifier guidance 的强度 s 是否需要任务特定调优?论文没有讨论这个超参的敏感性
  • 两阶段扩散(latent → action)的推理延迟具体是多少?论文只报告了步数和距离,没有报告时间

参考

  • UniVLA(2025):提供了世界模型架构和潜在动作空间设计,ProgressVLA 的世界模型直接复用其架构
  • DiTA(2025):扩散 Transformer VLA,ProgressVLA 的 Latent Action Expert 采用 DiTA 风格设计
  • RISE(2026):同样利用世界模型进行策略改进,但采用完整 RL 循环而非 classifier guidance
  • ReWiND(2025):语言条件化奖励 + 视频回放学习进度预测,与 ProgressVLA 的进度估计器思路相近
  • Robo-Dopamine(2025):通用过程奖励模型,同类进度估计工作