ProgressVLA:进度引导的扩散策略
论文:Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation
作者:Hongyu Yan, Qiwei Li, Jiaolong Yang, Yadong Mu
机构:Peking University、Microsoft Research Asia (MSRA)
发布时间:2026年3月
🔗 arXiv
分类标签:
进度估计Classifier Guidance潜在动作空间世界模型扩散策略长时域操作
一句话总结
观察到现有 VLA 缺乏显式的任务进度感知导致长时域任务中动作生成缺乏目标导向、依赖脆弱的手工终止启发式,提出 ProgressVLA——在 OXE 上预训练视觉-语言条件化进度估计器(
一、问题与动机
1.1 VLA 缺乏进度感知
现有 VLA 模型(无论是自回归 tokenization、直接回归还是扩散策略)在生成动作时,仅以视觉和语言作为条件输入,缺少一个显式的、稠密的任务进度信号。这导致:
- 长时域任务效率低下:生成的轨迹可能"看起来合理但不推进任务",浪费大量无效动作
- 终止依赖脆弱启发式:没有原则性的方法判断"任务什么时候算完成",只能靠手工阈值
- 级联子目标任务失败:一旦某个子目标偏离,后续子目标没有纠错机制
论文用一组初步实验(Tab. I)证明了进度引导的价值:在 CALVIN 上仅加入进度引导采样就将 Pearson 相关性从 0.722 提升到 0.934、步数从 90.4 降到 77.3、成功率从 92.7 提升到 93.6。
1.2 从原始像素学习进度的困难
直接从像素学习进度信号面临大量干扰变量(相机抖动、背景变化、干扰物体),简单的学习目标很容易将这些干扰与任务动态混淆,导致进度信号嘈杂且与真实目标完成度对齐差。
1.3 核心思路
ProgressVLA 的解决方案分三步:
- 预训练进度估计器:在 OXE 大规模数据上学习一个以语言和视觉为条件的标量进度回归器
- 世界模型想象未来:给定候选动作,逆动力学世界模型预测未来视觉状态
- 进度梯度引导扩散:进度估计器对想象的未来状态打分,梯度反向传播到潜在动作空间,作为 classifier guidance 引导扩散策略朝高进度方向采样
二、核心方法
2.1 进度估计器
进度估计器
训练使用 L1 损失:
其中 ground-truth 进度标签
架构:DINOv2 提取视觉 patch 特征 + CLIP ViT-L/14 提取文本特征 → 投影到共享嵌入空间 → 三层交叉注意力(语言→当前视觉、当前视觉→起始视觉、视觉→语言)→ 均值池化 + MLP + sigmoid 输出。
2.2 动作导向的世界模型
世界模型由编码器(逆动力学模型)和解码器(前向动力学模型)组成,在 DINOv2 特征空间(而非像素空间)中运作:
编码器(逆动力学):从两帧观测推断潜在动作
解码器(前向动力学):从当前观测和潜在动作预测未来观测
训练目标:
KL 正则化确保潜在动作分布稳定,便于下游扩散策略预测。
2.3 联合微调
世界模型和进度估计器预训练后,通过联合损失对齐潜在动力学与任务进度评估:
用大白话说:确保世界模型想象的未来状态能被进度估计器准确评估,两者的信息对齐是后续 classifier guidance 有效的前提。
2.4 进度引导的扩散策略
策略采用两阶段扩散:
- Latent Action Expert:在跨构型无关的潜在动作空间中生成 action chunk
(关注高层任务策略) - Action Decoder:将
映射为低层可执行动作序列
Classifier Guidance 机制:
在扩散去噪过程中,给定当前噪声样本
- 世界模型预测未来视觉状态:
- 进度估计器对未来状态打分:
- 由于
对 可微,计算梯度引导去噪方向:
其中
用大白话说:每一步去噪时,不仅按照扩散模型自身的分布走,还额外加了一个"朝着任务完成度更高的方向"的推力。这和扩散模型中经典的 classifier guidance 完全同源——只是这里的 classifier 是"进度估计器"。
2.5 在线 RL 微调
在推理时 classifier guidance 的基础上,ProgressVLA 还支持在线 RL 微调进一步提升鲁棒性:
a) 进度估计器微调:从成功轨迹中挖掘进度非单调异常点,用 margin-based 单调性损失修正:
b) 扩散策略微调:将进度最大化转化为 KL 正则化策略改进问题:
其中
三、实验结果
3.1 CALVIN(ABC→D)
| 方法 | 输入 | 1 | 2 | 3 | 4 | 5 | Avg.Len. |
|---|---|---|---|---|---|---|---|
| RoboFlamingo | S-RGB,G-RGB | 82.4 | 61.9 | 46.6 | 33.1 | 23.5 | 2.47 |
| GR-MG | S-RGBD,G-RGBD,P | 96.8 | 89.3 | 81.5 | 72.7 | 64.4 | 4.04 |
| Dita | S-RGB | 94.5 | 82.5 | 72.8 | 61.3 | 50.0 | 3.61 |
| ProgressVLA (w/o CG) | S-RGB | 89.4 | 76.8 | 63.0 | 52.2 | 43.1 | 3.24 |
| Pretrained (w/o CG) | S-RGB | 92.7 | 81.6 | 70.1 | 60.9 | 51.6 | 3.57 |
| Pretrained (w/ CG) | S-RGB | 93.6 | 82.4 | 71.2 | 60.8 | 52.8 | 3.61 |
| Pretrained (w/ Pretrained CG) | S-RGB | 93.6 | 82.0 | 72.0 | 63.6 | 56.4 | 3.68 |
| ProgressVLA (Full) | S-RGB | 95.2 | 84.8 | 73.6 | 67.2 | 52.0 | 3.73 |
关键发现:
- 预训练贡献大:预训练扩散策略 vs. 从头训练,Avg.Len. 3.24→3.57
- CG 依赖可靠估计器:预训练估计器的 CG 比从头训练估计器的 CG 提升更大(5-in-a-row 52.8→56.4)
- RL 微调进一步提升:Full 版本在 1-4 子任务上全面最优,Avg.Len. 3.73
3.2 LIBERO
| 方法 | Spatial | Object | Goal | Long | Average |
|---|---|---|---|---|---|
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| Dita | 84.2 | 96.3 | 85.4 | 63.8 | 82.4 |
| ProgressVLA w/o CG | 83.2 | 95.0 | 84.6 | 63.2 | 81.5 |
| ProgressVLA w/ CG | 85.8 | 96.1 | 86.0 | 65.4 | 83.3 |
| ProgressVLA Full | 88.2 | 96.4 | 87.2 | 66.2 | 84.5 |
CG 在所有子集上一致提升(81.5→83.3),Full 进一步到 84.5。在长时域 LIBERO-LONG 上对比 OpenVLA 优势明显(66.2 vs. 53.7,+23%)。
3.3 真实世界
| 方法 | 成功率↑ | 平均距离↓ | 平均步数↓ |
|---|---|---|---|
| Octo | 23% | 1.30m | 187.9 |
| ProgressVLA (w/o CG) | 66% | 0.96m | 100.8 |
| ProgressVLA (w/ CG) | 76% | 0.81m | 53.3 |
CG 不仅提升成功率(66→76),还大幅减少冗余运动(步数 100.8→53.3,-47%),说明进度引导让动作更果断、更目标导向。
3.4 进度估计器泛化性(Tab. V)
| 场景 | 方法 | Pearson↑ | Stop↑ | MAE↓ |
|---|---|---|---|---|
| 原始 | From Scratch | 0.912 | 53.8 | 0.14 |
| 原始 | Finetuned | 0.977 | 82.1 | 0.10 |
| 光照变化 | From Scratch | 0.809 | 3.6 | 0.24 |
| 光照变化 | Finetuned | 0.953 | 80.8 | 0.12 |
| 新物体 | From Scratch | 0.810 | 37.5 | 0.15 |
| 新物体 | Finetuned | 0.972 | 81.2 | 0.11 |
预训练+微调的估计器在光照变化和新物体两种 OOD 场景下均保持强鲁棒性,而从头训练的估计器在光照变化下几乎完全失效(Stop 3.6%)。
四、局限性与未来方向
- 进度标签的简化假设:使用归一化时间步
作为进度代理,隐含假设专家演示是匀速推进的。对于有"等待"或"探索"阶段的复杂任务,这一假设可能不成立 - 世界模型容量受限:当前世界模型是短时域想象(一个 action chunk 对应一步预测),无法进行多步前向规划
- 推理开销:CG 需要在每个扩散步进行梯度计算(前向世界模型 + 反向传播),增加了推理延迟
- 仅在 RGB 输入上验证:虽然相机支持 RGB-D,但当前方法仅使用 RGB
五、个人思考
5.1 进度估计作为通用 VLA 组件
这篇工作的核心洞察——VLA 需要一个显式的稠密进度信号——非常有价值。当前大量 VLA 工作聚焦于动作生成的质量(更好的架构、更多的数据),但忽略了"生成的动作是否在推进任务"这个根本性问题。ProgressVLA 提出的进度估计器实际上可以作为一个通用组件,与任何 VLA 策略结合使用。
5.2 与已读论文的联系
- 与 RISE 的互补:RISE 使用组合式世界模型在想象空间中做 RL 自改进,ProgressVLA 使用世界模型做进度引导的 classifier guidance。两者都利用世界模型避免真实交互,但策略改进机制不同——RISE 是完整的在线 RL 循环,ProgressVLA 是推理时的梯度引导 + 可选的轻量 RL 微调
- 与 ReWiND / Robo-Dopamine / ROBOMETER 的关系:这些工作都涉及进度/奖励模型的预训练。ReWiND 用 video rewind 学进度预测、Robo-Dopamine 训练通用过程奖励模型、ROBOMETER 用帧级进度+轨迹偏好。ProgressVLA 的进度估计器可视为同类工作,但独特之处在于将进度信号直接嵌入扩散采样过程(通过 classifier guidance),而非仅作为后处理排序器或 RL 奖励
- 与 UniVLA 的架构关联:ProgressVLA 的世界模型直接采用 UniVLA 的架构(DINOv2 特征空间 + VQ 离散化),Latent Action Expert 也使用 UniVLA 风格的潜在动作表示,说明潜在动作空间的标准化正在成为 VLA 领域的趋势
- 与 WMPO 的对比:WMPO 也使用世界模型在隐空间做 PPO 后训练,但其进度信号是标准的 RL 奖励。ProgressVLA 更进一步,将进度信号直接融入扩散去噪的每一步(classifier guidance),理论上比 RL 更细粒度地影响动作生成
5.3 Classifier Guidance 在机器人策略中的前景
ProgressVLA 展示了一个优雅的范式:预训练可微的评估器 → 在扩散采样时反向传播梯度引导。这个范式不局限于进度估计——任何可微的奖励/约束函数都可以用同样的方式注入扩散策略。例如安全约束、能效优化、人类偏好等。这可能是扩散策略相比自回归 VLA 的一个结构性优势——自回归模型的离散采样过程很难进行连续的梯度引导。
5.4 待验证的问题
- 进度估计器在非操作类任务(如导航、双臂协调)上是否同样有效?
- classifier guidance 的强度
是否需要任务特定调优?论文没有讨论这个超参的敏感性 - 两阶段扩散(latent → action)的推理延迟具体是多少?论文只报告了步数和距离,没有报告时间
参考
- UniVLA(2025):提供了世界模型架构和潜在动作空间设计,ProgressVLA 的世界模型直接复用其架构
- DiTA(2025):扩散 Transformer VLA,ProgressVLA 的 Latent Action Expert 采用 DiTA 风格设计
- RISE(2026):同样利用世界模型进行策略改进,但采用完整 RL 循环而非 classifier guidance
- ReWiND(2025):语言条件化奖励 + 视频回放学习进度预测,与 ProgressVLA 的进度估计器思路相近
- Robo-Dopamine(2025):通用过程奖励模型,同类进度估计工作