机器人 · Robotics  |  cs.RO · arXiv 2025

CronusVLA

Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling
Hao Li, Shuai Yang, Yilun Chen, Xinyi Chen, Xiaoda Yang, Yang Tian, Hanqing Wang, Tai Wang, Dahua Lin, Feng Zhao, Jiangmiao Pang

CronusVLA 将单帧 VLA 模型扩展至多帧范式:先在大规模具身数据集上进行单帧预训练,再通过 feature chunking 与跨帧解码器(cross-frame decoder)汇聚历史帧信息进行后训练,同时大幅提升推理速度与观测鲁棒性。

arXiv 2506.19816 June 2025 3 embodiments · simulation + real-world 📄 arXiv:2506.19816 PDF
VLA 多帧建模 机器人操作 cross-frame decoder feature chunking observational robustness SimplerEnv-OR diffusion transformer 具身智能

01 动机

现有基于预训练视觉-语言模型(VLM)的 VLA 模型仍受限于单帧图像范式,无法充分利用多帧历史提供的时序信息。 直接将多帧图像输入 VLM backbone 会因 self-attention 的二次方计算复杂度带来巨大的计算开销和推理延迟。 低级策略(low-level policies)的研究已表明多帧历史观测可提升性能与鲁棒性,但如何将其高效地引入大型 VLA 模型仍是未解难题。

"these models remain constrained by the single-frame image paradigm and fail to fully leverage the temporal information offered by multi-frame histories, as directly feeding multiple frames into VLM backbones incurs substantial computational overhead and inference latency."
CronusVLA teaser
图1:CronusVLA 整体框架概览。系统包含在大规模操作数据集上的单帧预训练(single-frame pretraining)阶段,以及在跨体态数据集上的多帧后训练(multi-frame post-training)阶段。CronusVLA 在仿真 benchmark 与真实环境中均展现出快速推理、高成功率与优越观测鲁棒性。
70.9%SimplerEnv 平均成功率
+26.8%LIBERO 较 OpenVLA 的提升
8.73 Hz推理速度(基线 3.09 Hz)
24 类SimplerEnv-OR 干扰类型

02 方法

CronusVLA 采用两阶段训练策略:第一阶段在大规模具身数据集上进行单帧 VLA 预训练,建立有效的具身视觉-语言基础; 第二阶段通过 feature chunking 将 VLM backbone 的输出从离散 token 替换为可学习特征(learnable features), 并经由跨帧解码器(cross-frame decoder)汇聚历史多帧信息,同时利用队列机制(queue mechanism)实现快速推理。

CronusVLA architecture
图2:CronusVLA 框架详解。(a) 单帧预训练:使用自回归方式预测离散动作 token(256 bins);(b) 多帧后训练:复制模型权重后,通过跨帧解码器汇聚历史帧的可学习特征;(c) 队列机制(queue mechanism)用于 feature chunking 以加速推理;(d) 跨帧解码器(cross-frame decoder)内部结构,包含 cross-attention 与 DiT-based 扩散预测。

单帧预训练(Single-Frame Pretraining)

第一阶段在大规模异构具身数据集上训练基础单帧 VLA 模型,采用自回归方式预测离散动作 token(量化为 256 bins)。 该阶段保留了 VLM backbone 的视觉感知能力,为后续多帧扩展奠定强基础。 模型配置包括:CronusVLA-7B(Llama 2 7B backbone,DINOv2 + SigLIP 视觉编码器) 与 CronusVLA-0.5B(Qwen2.5 0.5B backbone)。

多帧后训练与跨帧解码器(Multi-Frame Post-Training & Cross-Frame Decoder)

后训练阶段将 VLM backbone 的预测目标从离散 token 切换为连续的可学习特征,并通过 feature chunking 将 M 步历史帧的特征组织为结构化序列送入跨帧解码器。 跨帧解码器基于 DiT(Diffusion Transformer)设计,包含:

历史帧特征采用 stop-gradient 操作,防止梯度更新 VLM backbone,从而在保留单帧感知能力的同时实现解码器层面的时序建模(multi-frame regularization)。 推理时利用 feature 缓存(feature caching)消除重复的视觉-语言计算,实现 8.73 Hz 的高速推理(基线仅 3.09 Hz,提升 184%)。 后训练数据集为 Bridge-v2 + Fractal(148k 轨迹,5M 多帧片段)。

SimplerEnv-OR 鲁棒性基准

为评估时序与空间干扰下的鲁棒性,论文提出 SimplerEnv-OR benchmark,包含 24 种观测干扰类型(模糊、抖动、丢帧、遮挡、噪声等)与 120+ 严重程度等级,覆盖 Global、Local、Discrete 三大类别,支持空间维度与时序维度的独立评估。

SimplerEnv-OR benchmark
图3:SimplerEnv-OR benchmark 示例。包含 Global(全局)、Local(局部)、Discrete(离散)三大干扰类别,以及 Constant(1:0)、Cyclic(1:1)、Sparse(1:3 或 1:5)三种干扰-清洁帧比例,支持时序与空间双维度评估。

03 实验

实验在三种具身平台(Google Robot VM/VA、WidowX、Franka)上进行,涵盖 SimplerEnv 仿真 benchmark、LIBERO benchmark、SimplerEnv-OR 鲁棒性评测及真实世界 Franka 机器人实验。 基线包括 OpenVLA、TraceVLA、RoboVLMs、SpatialVLA、DP3 等。

SimplerEnv 仿真性能(Table 1)

方法Google VMGoogle VAWidowX平均
OpenVLA17.9%26.0%30.1%24.7%
TraceVLA45.8%49.8%
SpatialVLA-7B
CronusVLA-7B78.6%73.8%60.4%70.9%

相较 TraceVLA,CronusVLA-7B 在 Google VM 上取得 +71.6% 的相对提升,Google VA 上提升 +48.2%

LIBERO 基准测试(Table 2)

方法LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均
OpenVLA84.7%88.4%79.2%53.7%76.5%
CronusVLA-7B99.0%99.3%95.8%94.0%97.0%

长时序任务(LIBERO-Long)成功率从 OpenVLA 的 53.7% 提升至 94.0%(+40.3%);整体平均成功率较 OpenVLA 提升 +26.8%(论文摘要原文数据)。

SimplerEnv-OR 鲁棒性评测(Table 3)

方法时序鲁棒性(Sparse)空间鲁棒性(平均)
RoboVLMs78.7%
SpatialVLA63.1%
CronusVLA-7B96.2% R-Score86.9% R-Score

真实世界 Franka 实验

Real-world Franka experiments
图4:真实世界实验。(a) 基础抓放能力(precise manipulation:block/cup stacking);(b) 长时序任务(long-horizon tasks),多帧建模在处理时序依赖操作中优势显著;(c) 泛化与鲁棒性测试,相机遮挡(camera occlusion)与各类干扰下成功率达 72.6%,持续优于 OpenVLA 与 DP3。

消融实验(Ablations)

Frame number ablation
图5:帧数影响分析。随着输入帧数增加,成功率提升但推理速度下降;feature caching + cross-frame decoder 的组合方案在保持高成功率的同时恢复推理速度至 8.73 Hz。

消融实验关键结论:

04 局限性

说明:以下局限性均来自论文 Appendix I 中作者明确陈述的内容(stated by the authors)。
SimplerEnv-OR 覆盖的干扰类型有限

SimplerEnv-OR 当前涵盖 24 种干扰类型,尚不包含针对关键帧(keyframe)的定向扰动,无法全面模拟真实部署场景中的所有干扰形式,需进一步扩充。

固定频率干扰未能捕获最坏情况

现有评估使用固定频率的干扰模式(Constant / Cyclic / Sparse),可能无法覆盖最恶劣的连续干扰场景(worst-case scenarios)。

基线对比与仿真环境支持有待扩充

论文指出未来工作需扩展基线方法的对比范围,并增加对更多仿真环境的支持,以更全面地评估方法的泛化能力。