Skip to content

CronusVLA:高效鲁棒的多帧视觉-语言-动作建模

论文Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

作者:Hao Li*, Shuai Yang*, Yilun Chen†, Xinyi Chen, Xiaoda Yang, Yang Tian, Hanqing Wang, Tai Wang, Dahua Lin, Feng Zhao†, Jiangmiao Pang†

机构:USTC、Shanghai AI Laboratory、Zhejiang University、CUHK

发布时间:2026年

🔗 项目主页

发表会议:AAAI 2026


一句话总结

CronusVLA 提出两阶段框架将单帧 VLA 扩展到多帧范式:(1)单帧预训练建立具身视觉-语言基础;(2)多帧后训练将离散 token 预测转换为可学习特征,通过 Feature Chunking 聚合历史帧信息并用 DiT 跨帧解码器生成动作块,配合多帧正则化解耦骨干与时序建模。SimplerEnv 70.9%,LIBERO +26.8% 超越 OpenVLA,并提出 SimplerEnv-OR 观测鲁棒性基准(24 类干扰 × 120 严重度等级),鲁棒性评分全面领先。


一、问题与动机

1.1 单帧 VLA 的局限

当前 VLA(OpenVLA、RT-2、SpatialVLA 等)继承 VLM 的单帧图像范式,仅使用当前时刻观测 It 预测动作:

  • 丧失运动线索:连续观测中的运动信息有助于判断当前执行阶段、消解状态歧义
  • 缺乏观测鲁棒性:单帧损坏时无法从历史一致观测中可靠推断动作
  • 长时域状态混淆:无法利用历史轨迹判断任务进度

1.2 直接多帧输入的两大挑战

将多帧图像直接喂入 VLM 骨干面临:

  1. 计算开销平方增长:VLM 中自注意力复杂度随 token 数量二次增长,大规模预训练代价过高
  2. 冗余视觉 token 拖慢推理:严重降低实时部署可行性(朴素多帧方案推理速度降低 40%+)

1.3 现有多帧方案的不足

  • RoboVLMs:采用 LSTM 记忆建模,但从零训练具身能力,忽视了高效适配已有单帧预训练模型的潜力
  • TraceVLA:在当前帧上绘制历史轨迹作为视觉提示,但依赖精确的历史信息,干扰时鲁棒性差
  • Dita:多帧输入小型骨干,但无法利用大规模 VLM 预训练先验

1.4 CronusVLA 的核心思路

两阶段方案:先单帧预训练保留 VLM 视觉感知,再多帧后训练引入时序建模——在特征层面而非图像层面聚合多帧信息,避免 token 数量爆炸。


二、核心方法

2.1 第一阶段:单帧预训练

在 OXE 大规模数据集上,使用标准自回归离散 token 预测训练基础 VLA:

at=VLA(It,l)
  • 视觉编码器:DINOv2 + SigLIP
  • 动作 tokenizer:连续动作映射到 256 个 bin
  • 目的:将视觉编码器的感知能力迁移到具身场景,建立视觉-语言基础
  • 优势:单帧预训练更好地保留 VLM 的单帧视觉感知,且在大规模数据上训练成本更低

2.2 第二阶段:多帧后训练

从离散 token 到 Feature Chunking

核心转变:不再生成离散动作 token,而是在骨干隐藏层引入可学习特征 ftRd

ft=VL(It,l)

构建 Feature Chunking 聚合历史 M 帧的特征:

FtM={ftM+1,,ft1,ft}=ftM+1:t

训练时:将 M 帧输入在 batch 维度重组,VLM 骨干独立处理 B×M 个单帧输入(无多帧 attention 开销)。

推理时:使用 FIFO 队列缓存历史特征,每步仅需对当前帧做一次前向计算,历史特征直接从队列读取。

跨帧解码器(Cross-frame Decoder)

基于 DiT 的解码器从 Feature Chunking 解码动作块:

at:t+K1=Decoder(FtM)

Feature Modulator:平衡当前帧和历史帧的贡献。将当前特征 ft 通过通道分裂(DIV)扩展到与历史帧数匹配,再通过 MLP 调制:

Zf=MD(FtM)=MLP(ftM+1:t1,f~t)f~t=DIV(ft),ftRd,f~tR(M1)×d

调制后的特征 Zf 通过交叉注意力与噪声动作交互(Zf 作为 key/value,噪声动作作为 query),迭代去噪生成最终动作。

多帧正则化(Multi-frame Regularization)

关键设计:解耦 VLM 骨干与多帧建模,将时序建模限制在解码器内部。

历史帧的可学习特征使用停止梯度(stop-gradient):

f^tM+1:t1={sg(VL(Itk,l))},k=1,,M1

扩散损失:

L=EϵN(0,I),i[ϵ^iϵθ(t,f^tM+1:t1,ft)2]

两个优势

  1. 历史帧不需梯度计算 → 降低计算和内存开销
  2. 骨干始终以单帧方式更新 → 保留预训练感知能力 + 加速收敛

2.3 模型配置

变体LLM 骨干历史帧数推理速度
CronusVLA 7BLlama 2 7B68.7 Hz
CronusVLA 0.5BQwen2.5 0.5B311.1 Hz

后训练数据:Bridge-v2 + Fractal,约 148k episodes、5M 多帧片段。


三、SimplerEnv-OR 基准

3.1 设计动机

现有基准(SimplerEnv、LIBERO)评估任务/场景多样性,但忽视观测干扰对 VLA 的影响——这对真实世界部署至关重要。

3.2 干扰维度

空间维度(不同位置/类型的视觉干扰):

  • Global:模糊、抖动、全遮挡
  • Local:过曝、局部遮挡
  • Discrete:噪声、脉冲

时间维度(不同干扰频率):

  • Constant(1:0):每帧都有干扰
  • Cyclic(1:1):交替干扰
  • Sparse(1:3, 1:5):稀疏干扰

24 类干扰 × 120+ 严重度等级,超过 2,300 次试验。

3.3 鲁棒性评分

R-Scorei=100×SRiSR

其中 SR 为原始任务成功率,SRi 为干扰设置 i 下的成功率。


四、实验结果

4.1 SimplerEnv 主实验

方法参数GR-VMGR-VAWR-VM总平均
OpenVLA7B35.135.93.124.7
CogACT7B74.861.355.263.8
TraceVLA7B45.849.827.741.1
SpatialVLA3B56.051.845.851.2
Magma8B48.857.544.850.4
GR00T-N1.52B35.244.561.947.2
CronusVLA 0.5B0.5B70.557.839.656.0
CronusVLA 7B7B78.673.860.470.9

核心发现

  • CronusVLA 7B 全面 SOTA:GR-VM 78.6(超 CogACT +3.8),GR-VA 73.8(超 CogACT +12.5)
  • 长时域任务 Put in Drawer(需先开抽屉再放物体):VM 64.8 / VA 65.1,大多数方法在此任务接近 0
  • 0.5B 小模型超越多数 2B-7B 模型(总平均 56.0),说明参数量并非越大越好,有效建模更重要

4.2 LIBERO

方法SpatialObjectGoalLong平均
OpenVLA84.788.479.253.776.5
π₀96.898.895.885.294.2
π₀.₅ + KI98.097.895.685.894.3
GR00T-N194.497.693.090.693.9
CronusVLA 7B97.399.696.994.097.0
  • LIBERO 总平均 97.0% SOTA,Long 达 94.0%(+40.3% over OpenVLA)
  • 仅额外使用手腕视角输入即超越所有方法(包括用机器人状态的 π₀、π₀.₅)

4.3 SimplerEnv-OR 鲁棒性测试

时间维度

方法Constant R-ScoreCyclic R-ScoreSparse R-Score原始 SR
π₀43.536.834.920.9
CogACT53.366.180.255.2
CronusVLA61.286.796.260.4

空间维度

方法Global R-ScoreLocal R-ScoreDiscrete R-Score总平均 R-Score
CogACT60.280.587.472.1
RoboVLMs54.783.376.867.4
CronusVLA85.496.680.286.9

核心发现

  • CronusVLA 在 Sparse(1:3)干扰下几乎免疫(R-Score 96.2)
  • 单帧模型(π₀、SpatialVLA、CogACT)在高频干扰下产生分布外动作导致失败
  • RoboVLMs 和 TraceVLA 虽然是多帧模型,但严重依赖精确历史信息,干扰时倾向于不动或重复探测
  • SpatialVLA 在 SimplerEnv 上优于 RoboVLMs,但在 OR 基准上反而更差——揭示标准基准可能掩盖鲁棒性缺陷

4.4 消融实验

后训练策略

配置总平均 SR推理速度
基线(单帧后训练)31.05.18 Hz
+ 多帧直接输入32.4(+1.4)3.09 Hz(-40%)
+ 多帧 + 解码器48.2(+17.2)8.73 Hz(+68%)
+ 多帧 + 解码器 + VL 骨干训练67.2(+36.2)8.73 Hz
+ 多帧 + 解码器 + VL + 正则化(Ours)70.9(+39.9)8.73 Hz
  • 朴素多帧方案仅 +1.4% 性能但速度 -40%
  • Feature Chunking + 解码器方案性能 +17.2% 且速度反而提升(消除自回归解码 + 缓存历史特征)
  • 多帧正则化额外贡献 +3.7%,且显著加速收敛

帧数影响

  • CronusVLA 7B 最优帧数为 7(总 1+6 历史帧)
  • CronusVLA 0.5B 最优帧数为 4
  • 更多帧并非更好:过多时序输入可能导致性能退化
  • CronusVLA 推理速度随帧数增加几乎不变,而朴素基线显著退化

五、局限性与未来方向

  1. 双阶段训练的额外开销:单帧预训练 + 多帧后训练的两阶段流程比端到端训练更复杂,后训练数据选择和超参调优增加工程负担
  2. 帧数需要手动调优:7B 最优 7 帧、0.5B 最优 4 帧——最优帧数依赖模型容量和任务特性,缺乏自适应机制
  3. 仅支持第三人称单视角:当前框架假设单一固定相机视角,多视角(如手腕+第三人称)的多帧建模尚待探索
  4. SimplerEnv-OR 仅覆盖 WidowX:鲁棒性基准尚未扩展到 Google Robot 或真实世界设置

六、个人思考

6.1 "特征层面聚合"的核心洞察

CronusVLA 最重要的设计决策是在特征层面而非图像层面聚合多帧信息。直观理解:VLM 骨干将每帧图像压缩为一个可学习特征 ft,多帧信息在这个压缩表示上聚合——避免了多帧图像 token 的二次注意力开销。消融实验中,直接多帧输入仅 +1.4% 且速度 -40%,而 Feature Chunking 方案 +17.2% 且速度 +68%,差距惊人。

6.2 多帧正则化的解耦哲学

"骨干始终以单帧方式更新,时序建模限制在解码器内"——这种解耦类似于计算机视觉中冻结图像编码器 + 训练时序模块的范式(如 VideoBERT)。历史帧特征使用 stop-gradient 确保骨干的单帧感知不被多帧噪声干扰,同时解码器自由学习跨帧动态。

6.3 与 MemoryVLA 的对比

项目中的 MemoryVLA 同样关注 VLA 的时序建模,采用感知-认知双流记忆库。与 CronusVLA 的关键区别:

  • MemoryVLA:跨注意力检索 + 门控融合 + 合并压缩,显式建模长时域记忆
  • CronusVLA:Feature Chunking + FIFO 队列 + DiT 解码器,轻量级时序聚合

CronusVLA 的方案更工程友好(FIFO 队列机制简单高效),但 MemoryVLA 的记忆库可能在超长时域任务中更有优势。

6.4 SimplerEnv-OR 的重要贡献

这个鲁棒性基准填补了 VLA 评估的重要空白。最有趣的发现是:SpatialVLA 在标准 SimplerEnv 上优于 RoboVLMs,但在 OR 基准上反而更差——说明标准基准可能系统性高估了某些模型的实际部署能力。多帧模型在观测干扰下的天然优势(从历史一致帧推断动作)在 OR 基准中得到了量化验证。

6.5 0.5B 模型的启示

CronusVLA 0.5B 以极小的参数量(0.5B vs 7B)超越多数大模型,总平均 56.0% 优于 SpatialVLA(51.2%)、Magma(50.4%)、GR00T-N1.5(47.2%)。这强化了一个重要观点:有效的建模设计比单纯堆叠参数更有价值,特别是在实时部署场景中。


参考

  • OpenVLA(Kim et al., 2025):基础骨干和主要基线
  • CogACT(Li et al., 2024):SimplerEnv 先前 SOTA
  • TraceVLA(Zheng et al., 2025):视觉轨迹提示多帧建模
  • RoboVLMs(Li et al., 2024b):LSTM 记忆式多帧 VLA
  • SpatialVLA(Qu et al., 2025):空间自适应动作网格 VLA
  • MemoryVLA(Xie et al., 2025):双流记忆库时序建模
  • DiT(Peebles and Xie, 2023):扩散 Transformer,跨帧解码器骨干
  • π₀/π₀.₅(Black et al., 2024/2025):Flow Matching VLA,LIBERO 基线