机器人学习 · 视觉-语言-动作模型

FAST:面向视觉-语言-动作模型的高效动作分词

Efficient Action Tokenization for Vision-Language-Action Models
Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine  ·  Physical Intelligence · UC Berkeley · Stanford

本文提出 FAST(Frequency-space Action Sequence Tokenization),一种基于离散余弦变换(DCT)与字节对编码(BPE)的机器人动作压缩分词方案。FAST 解决了当前视觉-语言-动作(VLA)模型在高频、高灵巧度任务上的根本瓶颈——朴素的 binning 分词产生高度相关的动作 token,严重削弱自回归预测的有效学习信号。配合 π₀ 模型,FAST 在性能匹配扩散基线的同时,将训练所需 GPU 时时间压缩至 1/5

arXiv 2025 Physical Intelligence (π) 出品 FAST+ 在百万真实轨迹上预训练 📄 arXiv:2501.09747 🌐 项目主页 / Project Page
关键词action tokenizationVLA模型离散余弦变换字节对编码机器人操作自回归策略灵巧操作动作压缩高频控制零样本泛化

01 动机

现有 VLA 模型(如 OpenVLA)使用朴素的 per-dimension per-timestep binning 对连续动作离散化。当机器人控制频率升高(例如折叠衣物需要 50 Hz)或任务需要精细灵巧操作时,这种方案产生数百个高度相关 token,使得自回归 next-token prediction 形同虚设——模型退化为简单地复制最近一个动作 token。

"Highly correlated action tokens diminish the effectiveness of the next token prediction objective used in autoregressive VLAs."
FAST 对比朴素 binning 的效果对比
Figure 2(原文):FAST 分词(右)与朴素 binning 分词(左)的对比。在高频灵巧任务上,binning 方案完全失效,而 FAST 能持续取得良好成果。FAST "outperforms popular binning tokenization schemes"。
13.2×Shirt Fold (50 Hz) 上的 token 压缩率
相对扩散基线训练提速倍数
1MFAST+ 预训练所用真实机器人轨迹数
5 Hz→50 HzFAST 适用的控制频率范围

案例研究:采样率对 binning 的致命影响

采样率与分词策略的关系
Figure 1(原文):训练收敛曲线对比。FAST 使基于自回归 Transformer 的灵巧机器人控制成为可能——"FAST enables training of autoregressive Transformers for dexterous robot control via simple next token prediction",且训练速度比扩散 VLA 快 5 倍。

研究者在一个简单的 table-top manipulation 任务上系统研究了采样率对不同分词策略的影响。随着控制频率升高,使用 binning 分词训练的策略"produce increasingly poor predictions as we increase the sampling frequency",而基于 DCT 的 FAST 在各频率下均保持稳定表现。

02 方法

FAST 的核心思想是将动作序列视为信号而非独立离散点——先用 DCT 转换到频域分离低频与高频信息,再用 BPE 压缩稀疏系数,得到少量、低相关性、语义丰富的 token。整个流程完全不需要神经网络,可离线预处理,也可通用化迁移到新机器人。

FAST 分词流水线
Figure 4(原文):FAST 分词流水线全览。输入动作序列经过三步处理:(1) 基于分位数的归一化至 [−1, 1];(2) 对每个动作维度独立施加 DCT,转换到频域;(3) 对 DCT 系数量化并按频率优先顺序排列后,用 BPE 进行无损压缩。

步骤 1:归一化

使用 1st 和 99th 百分位数对动作进行分位数归一化,映射到 [−1, 1],有效处理大规模数据集中的异常值,保证 DCT 系数的数值稳定性。

步骤 2:离散余弦变换(DCT)

对每个动作维度独立做 DCT,将时域动作序列转换到频域。低频系数捕捉运动的整体形状,高频系数捕捉细节变化。自回归解码时先预测低频成分,"leads to more stable policy rollouts"。

步骤 3:量化与 BPE 压缩

用比例参数 γ 对 DCT 系数取整,再按"频率优先"顺序展开成一维序列。高频系数通常接近零,展开后形成大量重复的零值串,BPE 算法可以高效压缩这些稀疏模式,大幅减少 token 数量。

FAST+ 通用分词器

在约 100 万条来自多种机器人(单臂、双臂、移动操作臂)的真实 1 秒动作序列上离线训练 BPE 词表,得到通用分词器 FAST+。在未见机器人形态和控制频率上可实现 "2× reduction across all datasets"。

评测环境
Figure 5(原文):七个评测环境,涵盖桌面收拾(Table Bussing, 20 Hz)、T 恤折叠(Shirt Folding, 50 Hz)、洗衣折叠(Laundry Folding)、杂货装袋(Grocery Bagging)、烤面包(Toast)等多样化真实机器人任务。

与 π₀ 的集成:π₀-FAST

将 FAST 分词器接入物理智能公司的 π₀ VLA 模型(基于预训练视觉-语言模型的自回归策略),替换原有 binning 分词,无需改变模型架构。π₀-FAST 在大规模数据集上训练时收敛显著更快,且能处理此前扩散版本才能胜任的高频灵巧任务。

03 实验

实验涵盖:(1) token 压缩率对比;(2) 在多个真实机器人任务上与朴素 binning 和扩散基线的性能对比;(3) FAST+ 通用分词器验证;(4) 大规模泛化策略训练;(5) OpenVLA 主干上的消融实验。评测在 Physical Intelligence 实验室真实机器人硬件上进行。

Token 压缩率(Table I 原文数据)

数据集控制频率朴素 token 数FAST token 数压缩比
BridgeV25 Hz35201.75×
DROID15 Hz105293.6×
Table Bussing20 Hz140285.0×
Shirt Folding50 Hz7005313.2×

策略性能对比

不同分词方案下的策略性能
Figure 6(原文):在全部评测任务上比较三种方案——朴素 binning、FSQ(学习型向量量化基线)和 FAST。朴素 binning 在 Table Bussing(20 Hz)和 T-Shirt Folding(50 Hz)上完全失效;FAST 在所有任务上均取得最强表现,且特别在灵巧真实机器人任务上超越 FSQ。FAST+ 与数据集专用 FAST 性能相当,验证了通用性。

与扩散 π₀ 对比(训练效率)

FAST vs 扩散 π₀ 对比
Figure 9(原文):在小数据集上,FAST 与扩散 π₀ 性能相当;在大数据集(Table Bussing)上,"FAST converges faster",约快 3 倍训练步数。两种方案最终性能持平,但 FAST 所需 GPU 计算量大幅更少。

DROID 零样本泛化

DROID 策略跨环境泛化
Figure 7(原文):首次成功在 DROID 数据集上训练可在完全未见环境中零样本执行的 VLA 策略。实验跨三所大学校园进行桌面操作测试,证明 FAST 使语言条件泛化策略在此前以 binning 为分词时无法实现的高频任务上成为可能。

大规模泛化策略(π₀-FAST)

10,000 小时多样化机器人数据上训练的 π₀-FAST 与扩散版 π₀ 在洗衣折叠、T 恤折叠、杂货装袋、烤面包任务上性能相当,即"matches the performance of diffusion π₀",同时训练 GPU 时间仅为扩散基线的 1/5("5x fewer GPU hours for training than the π₀ model")。

消融实验

04 局限性

说明:第一条限制由论文作者在 Section VI-E 明确陈述;其余各点为根据设计与实验范围的推断(inferred)。
推断 (inferred) 推理速度慢——自回归解码延迟

论文 Section VI-E 明确指出:"One current limitation of the autoregressive VLA is its inference speed...the π₀ model with FAST tokenization needs approximately 750ms of inference time per chunk, since it must perform more autoregressive decoding steps (typically 30-60 action tokens...vs. 10 diffusion steps)."(750 ms vs. 扩散版的 100 ms on NVIDIA 4090 GPU,约慢 7.5 倍)。这使得实时、高速机器人控制场景目前难以满足要求,实验中也不得不降低评测吞吐量。

推断 (inferred) 有损压缩权衡——精度与压缩率的 trade-off

DCT 量化步骤受比例参数 γ 控制,量化并非完全无损——较高的压缩率会牺牲动作精度。具体在精密操作任务中此权衡的影响程度,论文未做系统分析。

推断 (inferred) 评测任务范围受限——以静态桌面操作为主

所有在线真实机器人评测均集中于固定基座的桌面操作任务;移动机器人、灵巧手、类人机器人等形态仅做了离线数据分析,未在实机上验证策略部署效果。

推断 (inferred) VLA 架构选择尚不明朗

论文自述"the jury on the best VLA architecture is still out"——自回归 vs. 扩散架构各有优劣,FAST 主要解决了分词瓶颈,但更深层的架构设计问题(如何最优融合视觉、语言、动作模态)仍属开放问题。