FAST：面向视觉-语言-动作模型的高效动作分词

01 动机

现有 VLA 模型（如 OpenVLA）使用朴素的 per-dimension per-timestep binning 对连续动作离散化。当机器人控制频率升高（例如折叠衣物需要 50 Hz）或任务需要精细灵巧操作时，这种方案产生数百个高度相关 token，使得自回归 next-token prediction 形同虚设——模型退化为简单地复制最近一个动作 token。

"Highly correlated action tokens diminish the effectiveness of the next token prediction objective used in autoregressive VLAs."

FAST 对比朴素 binning 的效果对比 — **Figure 2（原文）**：FAST 分词（右）与朴素 binning 分词（左）的对比。在高频灵巧任务上，binning 方案完全失效，而 FAST 能持续取得良好成果。FAST "outperforms popular binning tokenization schemes"。

13.2×Shirt Fold (50 Hz) 上的 token 压缩率

5×相对扩散基线训练提速倍数

1MFAST+ 预训练所用真实机器人轨迹数

5 Hz→50 HzFAST 适用的控制频率范围

案例研究：采样率对 binning 的致命影响

采样率与分词策略的关系 — **Figure 1（原文）**：训练收敛曲线对比。FAST 使基于自回归 Transformer 的灵巧机器人控制成为可能——"FAST enables training of autoregressive Transformers for dexterous robot control via simple next token prediction"，且训练速度比扩散 VLA 快 5 倍。

研究者在一个简单的 table-top manipulation 任务上系统研究了采样率对不同分词策略的影响。随着控制频率升高，使用 binning 分词训练的策略"produce increasingly poor predictions as we increase the sampling frequency"，而基于 DCT 的 FAST 在各频率下均保持稳定表现。

02 方法

FAST 的核心思想是将动作序列视为信号而非独立离散点——先用 DCT 转换到频域分离低频与高频信息，再用 BPE 压缩稀疏系数，得到少量、低相关性、语义丰富的 token。整个流程完全不需要神经网络，可离线预处理，也可通用化迁移到新机器人。

**Figure 4（原文）**：FAST 分词流水线全览。输入动作序列经过三步处理：(1) 基于分位数的归一化至 [−1, 1]；(2) 对每个动作维度独立施加 DCT，转换到频域；(3) 对 DCT 系数量化并按频率优先顺序排列后，用 BPE 进行无损压缩。

步骤 1：归一化

使用 1st 和 99th 百分位数对动作进行分位数归一化，映射到 [−1, 1]，有效处理大规模数据集中的异常值，保证 DCT 系数的数值稳定性。

步骤 2：离散余弦变换（DCT）

对每个动作维度独立做 DCT，将时域动作序列转换到频域。低频系数捕捉运动的整体形状，高频系数捕捉细节变化。自回归解码时先预测低频成分，"leads to more stable policy rollouts"。

步骤 3：量化与 BPE 压缩

用比例参数 γ 对 DCT 系数取整，再按"频率优先"顺序展开成一维序列。高频系数通常接近零，展开后形成大量重复的零值串，BPE 算法可以高效压缩这些稀疏模式，大幅减少 token 数量。

FAST+ 通用分词器

在约 100 万条来自多种机器人（单臂、双臂、移动操作臂）的真实 1 秒动作序列上离线训练 BPE 词表，得到通用分词器 FAST+。在未见机器人形态和控制频率上可实现 "2× reduction across all datasets"。

**Figure 5（原文）**：七个评测环境，涵盖桌面收拾（Table Bussing, 20 Hz）、T 恤折叠（Shirt Folding, 50 Hz）、洗衣折叠（Laundry Folding）、杂货装袋（Grocery Bagging）、烤面包（Toast）等多样化真实机器人任务。

与 π₀ 的集成：π₀-FAST

将 FAST 分词器接入物理智能公司的 π₀ VLA 模型（基于预训练视觉-语言模型的自回归策略），替换原有 binning 分词，无需改变模型架构。π₀-FAST 在大规模数据集上训练时收敛显著更快，且能处理此前扩散版本才能胜任的高频灵巧任务。

03 实验

实验涵盖：(1) token 压缩率对比；(2) 在多个真实机器人任务上与朴素 binning 和扩散基线的性能对比；(3) FAST+ 通用分词器验证；(4) 大规模泛化策略训练；(5) OpenVLA 主干上的消融实验。评测在 Physical Intelligence 实验室真实机器人硬件上进行。

Token 压缩率（Table I 原文数据）

数据集	控制频率	朴素 token 数	FAST token 数	压缩比
BridgeV2	5 Hz	35	20	1.75×
DROID	15 Hz	105	29	3.6×
Table Bussing	20 Hz	140	28	5.0×
Shirt Folding	50 Hz	700	53	13.2×

策略性能对比

不同分词方案下的策略性能 — **Figure 6（原文）**：在全部评测任务上比较三种方案——朴素 binning、FSQ（学习型向量量化基线）和 FAST。朴素 binning 在 Table Bussing（20 Hz）和 T-Shirt Folding（50 Hz）上**完全失效**；FAST 在所有任务上均取得最强表现，且特别在灵巧真实机器人任务上超越 FSQ。FAST+ 与数据集专用 FAST 性能相当，验证了通用性。

与扩散 π₀ 对比（训练效率）

FAST vs 扩散 π₀ 对比 — **Figure 9（原文）**：在小数据集上，FAST 与扩散 π₀ 性能相当；在大数据集（Table Bussing）上，"FAST converges faster"，约快 3 倍训练步数。两种方案最终性能持平，但 FAST 所需 GPU 计算量大幅更少。

DROID 零样本泛化

DROID 策略跨环境泛化 — **Figure 7（原文）**：首次成功在 DROID 数据集上训练可在完全未见环境中**零样本**执行的 VLA 策略。实验跨三所大学校园进行桌面操作测试，证明 FAST 使语言条件泛化策略在此前以 binning 为分词时无法实现的高频任务上成为可能。

大规模泛化策略（π₀-FAST）

在 10,000 小时多样化机器人数据上训练的 π₀-FAST 与扩散版 π₀ 在洗衣折叠、T 恤折叠、杂货装袋、烤面包任务上性能相当，即"matches the performance of diffusion π₀"，同时训练 GPU 时间仅为扩散基线的 1/5（"5x fewer GPU hours for training than the π₀ model"）。

消融实验

主干无关性：在 OpenVLA 上替换分词器后，FAST 同样显著提升高频任务性能，证明方法不依赖特定 VLA 架构。
BPE 压缩的必要性：仅用 DCT 而不加 BPE 时，性能大幅下降——原因在于 DCT 产生的大量零值 token 未经压缩会导致解码步数爆炸，推理 token 数增加数量级。

04 局限性

说明：第一条限制由论文作者在 Section VI-E 明确陈述；其余各点为根据设计与实验范围的推断（inferred）。

推断 (inferred) 推理速度慢——自回归解码延迟

论文 Section VI-E 明确指出："One current limitation of the autoregressive VLA is its inference speed...the π₀ model with FAST tokenization needs approximately 750ms of inference time per chunk, since it must perform more autoregressive decoding steps (typically 30-60 action tokens...vs. 10 diffusion steps)."（750 ms vs. 扩散版的 100 ms on NVIDIA 4090 GPU，约慢 7.5 倍）。这使得实时、高速机器人控制场景目前难以满足要求，实验中也不得不降低评测吞吐量。

推断 (inferred) 有损压缩权衡——精度与压缩率的 trade-off

DCT 量化步骤受比例参数 γ 控制，量化并非完全无损——较高的压缩率会牺牲动作精度。具体在精密操作任务中此权衡的影响程度，论文未做系统分析。

推断 (inferred) 评测任务范围受限——以静态桌面操作为主

所有在线真实机器人评测均集中于固定基座的桌面操作任务；移动机器人、灵巧手、类人机器人等形态仅做了离线数据分析，未在实机上验证策略部署效果。

推断 (inferred) VLA 架构选择尚不明朗

论文自述"the jury on the best VLA architecture is still out"——自回归 vs. 扩散架构各有优劣，FAST 主要解决了分词瓶颈，但更深层的架构设计问题（如何最优融合视觉、语言、动作模态）仍属开放问题。