机器人 · Robotics · arXiv 2025

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization

高效自回归视觉-语言-动作建模,通过神经动作分词实现速度与精度双提升
Yicheng Liu, Shiduo Zhang, Zibin Dong, Baijun Ye, Tianyuan Yuan, Xiaopeng Yu, Linqi Yin, Chenhao Lu, Junhao Shi, Luca Jiang-Tao Yu, Liangtao Zheng, Tao Jiang, Jingjing Gong, Xipeng Qiu, Hang Zhao

FASTer 提出了一套端到端框架,彻底解决自回归 VLA 中动作分词在重建保真度推理效率之间的固有矛盾。 核心包含两个模块:FASTerVQ(基于 Transformer 的残差向量量化动作分词器) 和 FASTerVLA(块级自回归解码的完整 VLA 系统), 在 LIBERO 和 Simpler-Bridge 基准上分别达到 97.9% 和 87.9% 的成功率,同时推理延迟仅为先前 FAST 方法的 20–50%。

arXiv 2512.04952 cs.CV · cs.RO 2025 年 12 月 📄 arXiv:2512.04952
VLA action tokenization autoregressive decoding residual vector quantization 机器人操作 推理加速 block-wise decoding cross-embodiment

01 动机

自回归 VLA 面临一个核心矛盾:为了加快推理速度,需要将连续动作序列压缩成尽可能少的 token;但过度压缩会丢失精细的动作细节,导致任务失败。

"The key challenge lies in the reconstruction fidelity vs. inference efficiency trade-off: high compression reduces inference latency but degrades action reconstruction quality, while low compression preserves fidelity but increases token count and slows inference."

现有方法(如 FAST)将动作块经 DCT 变换后量化为离散 token,虽然加快了推理速度,但存在两大缺陷: (1)codebook 利用率低(FAST 仅使用了 48.4% 的 codebook),导致大量表征空间浪费; (2)固定的 DCT 频率截断无法自适应地保留各维度动作信号中最关键的频率成分。

FASTer 跨具身形态的整体对比
图 1:FASTer 在多具身形态上的综合表现。 FASTer 在单臂操作(LIBERO, Simpler-Bridge)和全身控制(R1Lite)任务上均超越现有最优方法, 同时推理延迟大幅降低。单臂任务延迟 112 ms,全身控制延迟 237 ms(π0 FAST 为 1,100–3,000 ms)。
97.9%LIBERO 平均成功率(↑3.7 pp vs. π0 FAST-D)
87.9%Simpler-Bridge 平均成功率(↑11.4 pp vs. π0 FAST-R)
112 ms单臂推理延迟(vs. FAST 197–556 ms)
100%FASTerVQ codebook 利用率(vs. FAST 48.4%)

02 方法

FASTer 框架由两部分组成:FASTerVQ 是一个 Transformer 架构的残差向量量化(RVQ)动作分词器,负责将动作块高效编码为离散 token;FASTerVLA 则在预训练的视觉-语言骨干网络上,通过块级自回归解码(block-wise autoregressive decoding)实现快速、高精度的动作生成。

FASTerVQ:神经动作分词器

FASTerVQ 架构
图 2:FASTerVQ 架构示意。 动作块被编码为"单通道图像"(single-channel image),通过 Transformer 编码器捕捉全局时空依赖关系, 再经三层残差向量量化(RVQ)压缩为少量离散 token。解码器通过时域 ℓ₁ 损失与 DCT 域 ℓ₁ 损失联合优化, 确保重建的动作序列在时域与频域均保持高保真度。

非均匀动作分组(Non-uniform Grouping)

不同维度的动作(如关节角度、末端执行器位移)具有不同的频率特性与数值分布。 FASTerVQ 采用非均匀分组策略,按维度的分布特性分配不同的量化精度, 避免高方差维度与低方差维度共享同一量化网格导致的精度损失。

双重重建损失(Dual Reconstruction Loss)

联合使用时域 ℓ₁ 损失(temporal ℓ₁)和 DCT 域 ℓ₁ 损失: 前者直接约束动作序列的逐步误差,后者约束频率分量以保留动作的周期性结构。 三层 RVQ codebook(大小 4096)实现了 100% 的 codebook 利用率(normalized entropy 0.91)。

FASTerVLA:块级自回归解码

FASTerVLA 架构与块级解码
图 3:FASTerVLA 架构与块级自回归解码(Block-wise Autoregressive decoding,BAR)。 每次 forward pass 同时预测 B 个 token(block),将前向传播次数从 N 次降低到 N/B 次。 token 的解码顺序按"先 codebook 层级(粗到细)、后时间步"排列, 保证每步解码都具有充分的上下文。间距增广(Spacing Augmentation)防止位置过拟合, 轻量级 action expert 共享主干参数,进一步节省计算。

Block-wise Autoregressive decoding (BAR)

标准自回归解码每步仅生成 1 个 token,对长动作序列(N 个 token)需 N 次 forward pass。 BAR 每步并行预测 B 个 token,forward pass 次数降低至 ⌈N/B⌉, 在保持 token 间因果依赖的前提下大幅提升吞吐量。

Spacing Augmentation

训练时对动作块中的 token 位置施加随机间距扰动,使模型学习对位置偏移鲁棒的表征, 避免在推理时因 block 边界与训练时不一致而产生位置过拟合问题。

03 实验

LIBERO(四个子任务)、Simpler-Bridge(零样本跨具身)和 R1Lite 全身控制 上进行评测, 并与 π0、π0 FAST-D/R、OpenVLA 等最强基线对比。推理延迟在 RTX 5090 上测量。

LIBERO 基准(Table 1,成功率 %)

模型SpatialObjectGoalLongAverage
FASTer98.695.498.697.997.9
FASTer w/o BAR94.888.698.695.495.4
π0 FAST-D96.086.896.094.294.2
π095.885.298.894.294.2

Simpler-Bridge 零样本泛化(Table 1,成功率 %)

模型SpoonCarrotBlockEggplantAverage
FASTer91.793.367.599.287.9
π0 FAST-D77.588.368.371.776.5
π066.758.358.388.366.7
OpenVLA29.5

推理延迟(Table 2,RTX 5090)

任务FASTerπ0 FASTπ0
单臂操作(LIBERO)112 ms197–556 ms176 ms
全身控制(R1Lite)237 ms1,100–3,000 ms

跨骨干网络泛化

跨具身形态的性能对比
图 4:跨骨干网络性能对比(LIBERO 基准)。 FASTer 在不同视觉-语言骨干下均显著优于 FAST 基线。 以 InternVL3.5-2B 为骨干时,FAST 平均成功率为 79.35%,FASTer 提升至 96.65%(↑17.3 pp)。

Codebook 利用率(Table 8,Bridge 数据集)

指标FASTFAST+FASTer
Codebook 大小204820484096
使用率48.4%57.4%100%
Normalized Entropy0.690.770.91

消融实验(Ablations)

压缩率与重建质量的权衡
图 5:压缩率与重建质量(VRR)的权衡曲线。 FASTerVQ 在所有误差容忍度 σ 下均优于 FAST 及其变体, 在物理意义容忍度 σ=10⁻³ 处实现了"near-lossless"动作块重建。

04 局限性

说明:论文未设置独立的 Limitations 章节;以下各点综合了论文中明确陈述的限制(标注"stated")和基于方法设计合理推断的局限(标注"inferred")。
块级解码要求动作序列长度稳定(inferred)

BAR 每步并行预测 B 个 token,要求动作块 token 数量在训练与推理阶段一致。 若不同任务或具身形态的动作块长度差异较大,需要重新训练或设计变长策略,限制了跨任务零样本部署的灵活性。

主要在操作任务上验证,移动底座等场景评测有限(stated + inferred)

论文的实验以桌面操作(LIBERO、Simpler-Bridge)和全身控制(R1Lite)为主; 对移动操控、户外导航等更高自由度任务的泛化性尚未充分验证。

大规模分词器训练的计算代价(inferred)

FASTerVQ 的 Transformer 编码器与三层 RVQ 的训练需要覆盖多具身形态的大规模动作数据集; 相比 DCT+简单量化的 FAST,其训练成本更高,部署新具身形态时需要重新收集数据并微调分词器。

实时控制场景的延迟下限(inferred)

尽管 FASTer 在 RTX 5090 上达到 112 ms(单臂)和 237 ms(全身), 对于需要 30 Hz 以上控制频率(<33 ms)的高动态任务(如高速抛接、敏捷运动), 当前延迟仍存在差距,需要进一步量化或推理优化。