CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

01 动机

现有基于预训练视觉-语言模型（VLM）的 VLA 模型仍受限于单帧图像范式，无法充分利用多帧历史提供的时序信息。直接将多帧图像输入 VLM backbone 会因 self-attention 的二次方计算复杂度带来巨大的计算开销和推理延迟。低级策略（low-level policies）的研究已表明多帧历史观测可提升性能与鲁棒性，但如何将其高效地引入大型 VLA 模型仍是未解难题。

"these models remain constrained by the single-frame image paradigm and fail to fully leverage the temporal information offered by multi-frame histories, as directly feeding multiple frames into VLM backbones incurs substantial computational overhead and inference latency."

CronusVLA teaser — 图1：CronusVLA 整体框架概览。系统包含在大规模操作数据集上的单帧预训练（single-frame pretraining）阶段，以及在跨体态数据集上的多帧后训练（multi-frame post-training）阶段。CronusVLA 在仿真 benchmark 与真实环境中均展现出快速推理、高成功率与优越观测鲁棒性。

70.9%SimplerEnv 平均成功率

+26.8%LIBERO 较 OpenVLA 的提升

8.73 Hz推理速度（基线 3.09 Hz）

24 类SimplerEnv-OR 干扰类型

02 方法

CronusVLA 采用两阶段训练策略：第一阶段在大规模具身数据集上进行单帧 VLA 预训练，建立有效的具身视觉-语言基础；第二阶段通过 feature chunking 将 VLM backbone 的输出从离散 token 替换为可学习特征（learnable features），并经由跨帧解码器（cross-frame decoder）汇聚历史多帧信息，同时利用队列机制（queue mechanism）实现快速推理。

CronusVLA architecture — 图2：CronusVLA 框架详解。(a) 单帧预训练：使用自回归方式预测离散动作 token（256 bins）；(b) 多帧后训练：复制模型权重后，通过跨帧解码器汇聚历史帧的可学习特征；(c) 队列机制（queue mechanism）用于 feature chunking 以加速推理；(d) 跨帧解码器（cross-frame decoder）内部结构，包含 cross-attention 与 DiT-based 扩散预测。

单帧预训练（Single-Frame Pretraining）

第一阶段在大规模异构具身数据集上训练基础单帧 VLA 模型，采用自回归方式预测离散动作 token（量化为 256 bins）。该阶段保留了 VLM backbone 的视觉感知能力，为后续多帧扩展奠定强基础。模型配置包括：CronusVLA-7B（Llama 2 7B backbone，DINOv2 + SigLIP 视觉编码器）与 CronusVLA-0.5B（Qwen2.5 0.5B backbone）。

多帧后训练与跨帧解码器（Multi-Frame Post-Training & Cross-Frame Decoder）

后训练阶段将 VLM backbone 的预测目标从离散 token 切换为连续的可学习特征，并通过 feature chunking 将 M 步历史帧的特征组织为结构化序列送入跨帧解码器。跨帧解码器基于 DiT（Diffusion Transformer）设计，包含：

Cross-attention 机制：计算复杂度与帧数线性增长（区别于直接输入多帧图像的二次方复杂度）
Feature modulator：动态平衡当前帧与历史帧特征的贡献
扩散损失（Diffusion loss）：用于动作序列预测

历史帧特征采用 stop-gradient 操作，防止梯度更新 VLM backbone，从而在保留单帧感知能力的同时实现解码器层面的时序建模（multi-frame regularization）。推理时利用 feature 缓存（feature caching）消除重复的视觉-语言计算，实现 8.73 Hz 的高速推理（基线仅 3.09 Hz，提升 184%）。后训练数据集为 Bridge-v2 + Fractal（148k 轨迹，5M 多帧片段）。

SimplerEnv-OR 鲁棒性基准

为评估时序与空间干扰下的鲁棒性，论文提出 SimplerEnv-OR benchmark，包含 24 种观测干扰类型（模糊、抖动、丢帧、遮挡、噪声等）与 120+ 严重程度等级，覆盖 Global、Local、Discrete 三大类别，支持空间维度与时序维度的独立评估。

03 实验

实验在三种具身平台（Google Robot VM/VA、WidowX、Franka）上进行，涵盖 SimplerEnv 仿真 benchmark、LIBERO benchmark、SimplerEnv-OR 鲁棒性评测及真实世界 Franka 机器人实验。基线包括 OpenVLA、TraceVLA、RoboVLMs、SpatialVLA、DP3 等。

SimplerEnv 仿真性能（Table 1）

方法	Google VM	Google VA	WidowX	平均
OpenVLA	17.9%	26.0%	30.1%	24.7%
TraceVLA	45.8%	49.8%	—	—
SpatialVLA-7B	—	—	—	—
CronusVLA-7B	78.6%	73.8%	60.4%	70.9%

相较 TraceVLA，CronusVLA-7B 在 Google VM 上取得 +71.6% 的相对提升，Google VA 上提升 +48.2%。

LIBERO 基准测试（Table 2）

方法	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	平均
OpenVLA	84.7%	88.4%	79.2%	53.7%	76.5%
CronusVLA-7B	99.0%	99.3%	95.8%	94.0%	97.0%

长时序任务（LIBERO-Long）成功率从 OpenVLA 的 53.7% 提升至 94.0%（+40.3%）；整体平均成功率较 OpenVLA 提升 +26.8%（论文摘要原文数据）。

SimplerEnv-OR 鲁棒性评测（Table 3）

方法	时序鲁棒性（Sparse）	空间鲁棒性（平均）
RoboVLMs	—	78.7%
SpatialVLA	—	63.1%
CronusVLA-7B	96.2% R-Score	86.9% R-Score

真实世界 Franka 实验

Real-world Franka experiments — 图4：真实世界实验。(a) 基础抓放能力（precise manipulation：block/cup stacking）；(b) 长时序任务（long-horizon tasks），多帧建模在处理时序依赖操作中优势显著；(c) 泛化与鲁棒性测试，相机遮挡（camera occlusion）与各类干扰下成功率达 **72.6%**，持续优于 OpenVLA 与 DP3。

消融实验（Ablations）

Frame number ablation — 图5：帧数影响分析。随着输入帧数增加，成功率提升但推理速度下降；feature caching + cross-frame decoder 的组合方案在保持高成功率的同时恢复推理速度至 8.73 Hz。

消融实验关键结论：

仅加入多帧建模（+M.F.）：成功率 +4.5%，速度 -40.3%
加入 decoder 与连续特征（+M.F. +Dec.）：成功率 +48.2%，速度提升 2.8×
多帧正则化（multi-frame regularization，stop-gradient）：加速收敛并提升整体性能

04 局限性

说明：以下局限性均来自论文 Appendix I 中作者明确陈述的内容（stated by the authors）。

SimplerEnv-OR 覆盖的干扰类型有限

SimplerEnv-OR 当前涵盖 24 种干扰类型，尚不包含针对关键帧（keyframe）的定向扰动，无法全面模拟真实部署场景中的所有干扰形式，需进一步扩充。

固定频率干扰未能捕获最坏情况

现有评估使用固定频率的干扰模式（Constant / Cyclic / Sparse），可能无法覆盖最恶劣的连续干扰场景（worst-case scenarios）。

基线对比与仿真环境支持有待扩充

论文指出未来工作需扩展基线方法的对比范围，并增加对更多仿真环境的支持，以更全面地评估方法的泛化能力。