TinyVLA: 面向快速、数据高效的机器人操作视觉语言动作模型

01 动机

现有 VLA 模型（如 OpenVLA）存在两大核心瓶颈：其一，需要在包含 970K 条样本的大规模机器人数据集上进行耗时预训练；其二，基于 7B+ 参数语言模型的自回归 token 生成导致推理延迟高达 292ms，无法满足实时控制需求。

"Our framework achieves faster inference speeds, and improved data efficiency, eliminating the need for pre-training stage."

Inference latency vs. success rate — **图 1**：推理延迟与平均成功率对比（真实世界 Franka 机械臂，5 个任务）。气泡大小表示模型参数量。TinyVLA-H 在 A6000 GPU 上仅需 **14ms** 推理延迟，比 OpenVLA（292ms）快 **20 倍**，同时平均成功率高出约 25.7%。

20×推理速度提升
（vs. OpenVLA-7B）

14msTinyVLA-H 每步推理延迟

94.0%真实机械臂平均成功率（5 任务）

5.5×参数量减少倍数
（vs. OpenVLA）

02 方法

TinyVLA 由三部分组成：（1）预训练的紧凑型 VLM 骨干（70M–1.4B 参数，基于 LLaVA 管线 + Pythia 语言后端）；（2）LoRA 参数高效微调；（3）Diffusion Policy 动作解码器。整个框架无需机器人数据预训练，直接在少量示范数据上端到端微调。

TinyVLA Architecture — **图 2**：TinyVLA 模型架构。左侧为 VLM 预训练管线（图文对齐），右侧为机器人数据微调阶段。VLM 特征直接送入 Diffusion Policy 解码器预测动作噪声，取代自回归 token 生成。

紧凑型 VLM 骨干

作者选用参数量在 70M–1.4B 之间的小型视觉语言模型，通过 LLaVA 训练管线将视觉编码器与 Pythia 语言模型对齐。这使得 TinyVLA 在保留语言理解和视觉感知能力的同时，将参数规模压缩为 OpenVLA（7B）的约 1/5。

LoRA 参数高效微调

在机器人数据微调阶段，作者采用 LoRA（Low-Rank Adaptation），将低秩矩阵注入 Transformer 的 Q、K、V attention 层。文中指出 "trainable parameters constitute only 5.0% of the entire transformer's parameters"，大幅降低计算开销。

Diffusion Policy 解码器

动作生成不再依赖自回归离散 token，而是通过 Diffusion Policy 头部预测噪声、迭代去噪得到连续动作序列。这一设计同时带来两项优势：避免了大词表 softmax 的计算瓶颈，且连续动作表示天然适合精细的机械臂控制任务。

数据效率

每个任务仅需 100 条演示轨迹（5 个任务共 500 条），无需 OpenVLA 所需的 970K 条大规模预训练数据，即可达到甚至超越其性能。

无预训练阶段

直接使用公开发布的多模态预训练 VLM 权重作为初始化，省去机器人专属预训练阶段，显著降低部署门槛。

03 实验

实验涵盖真实世界单臂 Franka 机械臂（5 个操作任务）、双臂 UR5（3 个任务）及 MetaWorld 仿真环境（50 个任务）。基线模型包括 OpenVLA-7B 和 Diffusion Policy。

真实机械臂对比（Table II）

模型	PlaceTennis	FlipMug	StackCubes	CloseDrawer	OpenBox	平均
TinyVLA-H	90.0%	98.3%	98.3%	96.7%	86.7%	94.0%
OpenVLA	83.3%	51.7%	40.0%	85.0%	81.7%	68.3%
Diffusion Policy	16.7%	30.0%	3.3%	73.3%	53.3%	35.3%

TinyVLA-H 平均成功率 94.0%，比 OpenVLA（68.3%）高出 25.7%，同时使用参数量少 5.5 倍。

推理速度对比（Table IV）

模型	推理延迟（ms）	相对 OpenVLA 加速
OpenVLA-7B	292	1×（基准）
OpenVLA（换 1B 骨干）	140	~2×
TinyVLA-H	14	~20×

Generalization experiments — **图 5**：视角泛化实验（View Generalization）。在新环境中测试 3 个任务，评估 8 种相机视角变化（每台摄像机各 4 种），每种配置测试 2 次。TinyVLA-H 在最大 30° 视角偏移下仍保持高成功率，而 Diffusion Policy 在轻微视角变化下即失效。

双臂机器人（Table III）

在双臂 UR5 平台上，TinyVLA-H 平均成功率为 44.5%，OpenVLA 为 0%（完全失败），原因是 OpenVLA 的预训练数据仅覆盖单臂场景，无法泛化至双臂操作。

泛化能力

**图 4**：指令泛化（Instruction Generalization）。三种难度递增的指令泛化实验：语义重表述、新颖指令、未见物体颜色描述。TinyVLA-H 均能正确理解并执行。

指令泛化：能够理解语义重表述、新颖描述及未见颜色等指令变体。
视角泛化：摄像机视角偏移最大 30° 仍保持高成功率；Diffusion Policy 在轻微偏移下即失效。
背景泛化：在 6 种不同背景下无需数据增强仍表现稳定。
干扰物与光照泛化：在多种干扰物摆放和低光照条件下（OpenVLA 在低光照下失败）保持鲁棒性。
空间泛化：在训练区域之外的多个位置完成任务；OpenVLA 在此部分略优，作者归因于其大规模预训练数据覆盖了更多动作多样性。

消融实验

Failure type analysis by model size — **图 10**：不同规模预训练 VLM 的失败类型分析。TinyVLA-0.4B 常见指令误解错误；TinyVLA-1.3B 解决了语言理解问题；TinyVLA-3B（PaliGemma）进一步提升定位精度。

动作解码器消融（Table V）显示：MLP 解码器在全部 5 个任务上均为 0% 成功率；Action Chunking Transformer 平均约 11.6%；Diffusion Policy 解码器达到 94.0%，表明连续扩散动作建模对于精细操作至关重要。

MetaWorld 仿真（50 个任务）

TinyVLA-H 平均成功率 31.6%，Diffusion Policy 基线为 10.5%；在困难任务上，TinyVLA-H 的表现约为基线的 6 倍（"sixfold better"）。

04 局限性

注：本文没有设置独立的 Limitations 章节。以下第 1 条为作者在正文中明确陈述的限制，第 2–3 条为基于设计的推断（inferred）。

大规模预训练在分布外动作多样性上的优势（stated）

作者在空间泛化实验中明确指出："OpenVLA performs slightly better than our approach, likely because it is trained on large-scale robotic data, allowing the model to 'see' more diverse robot actions during pre-training。" 当测试位置严重偏离训练分布时，TinyVLA 相比经过大规模预训练的 OpenVLA 存在一定劣势。

Diffusion Policy 解码器带来额外推理开销（inferred）

虽然 TinyVLA-H 整体推理延迟仅 14ms，但文中 Table IV 暗示：若将 OpenVLA 的 7B 骨干替换为同等参数量的 1B 骨干，延迟从 292ms 降至 140ms（约 2×），而 TinyVLA-H 达到 14ms 的原因不仅在于骨干更小，还来自于 Diffusion Policy 自身的迭代去噪步数设置。在实时控制频率更高的场景下，去噪步数与延迟的权衡尚未充分讨论。

任务特定数据收集仍为必要前提（inferred）

尽管 TinyVLA 消除了大规模机器人预训练的需求，但每个新任务仍需收集约 100 条高质量演示轨迹。对于无法轻松采集人工示范的场景（如危险环境、远程操作），数据采集本身仍是瓶颈。