TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm VLA Models

01 动机

双臂操作是机器人研究的重要挑战，但大规模双臂数据集极为稀缺。现有的整体式（monolithic）双臂 VLA 模型需要海量数据与算力预训练，制约了实际应用。

"RDT-1B required massive pretraining and fine-tuning (reportedly a month on 48 H100 GPUs)... π₀ relies on a 10,000-hour proprietary dataset."

论文的核心洞察来自神经科学："human bimanual manipulation is the coordination of arm-specific motor primitives rather than a single monolithic controller"，人类双臂由专用神经回路协调同步。TwinVLA 基于此，将两个独立的单臂 VLA 模型通过轻量 Joint Attention 连接，利用公开丰富的单臂数据完成迁移，"eliminating the need for large-scale bimanual pretraining"。

数据效率对比：TwinVLA（~800h 单臂数据 + 50 条双臂演示，25 H100 GPU-days）相比 RDT-1B（~2,400h，1,440 GPU-days）和 π₀（~10,900h，>1,000 GPU-days）具有压倒性的数据与计算效率优势。

25H100 GPU-days（TwinVLA 训练）

50条双臂演示即可超越 RDT-1B

1.3B参数（与 RDT-1B 1.2B 相当）

+26%真实世界相对 RDT-1B 成功率提升

02 方法

TwinVLA 复用两个预训练的 0.8B SingleVLA 的 VLM backbone，共享视觉编码器和 DiT action head，通过三个轻量组件实现跨臂协作：Joint Attention、Mixture-of-Experts（MoE）和 Attention Re-weighting。

TwinVLA 整体框架 — TwinVLA 架构总览：两个单臂 VLM backbone（左臂 / 右臂）通过 Joint Attention 连接，共享视觉编码器（Vision Encoder）和 DiT Action Head。共享的语言与图像 token 由 MoE 模块处理，降低显存开销。

Joint Attention —— 跨臂信息交互

每个 Transformer 块中，将两个 backbone 的 Q、K、V 拼接后做统一 self-attention，再拆分回各自流："Concatenate the Q, K, V from both backbones, perform self-attention, and subsequently split the outputs back to their respective streams." 这使得左右臂 token 可直接相互感知，实现双臂协调。消融实验表明，去掉 Joint Attention 后真实环境性能下降 27%。

Joint Attention 模块细节 — TwinVLA Transformer block 细节：共享模态（语言、图像）经 MoE 处理；左右臂专属 token 经 Joint Attention 拼接融合，再分别回流；Attention Re-weighting 保留预训练知识。

Mixture-of-Experts（MoE）

对共享输入（语言、图像），两个 backbone 的 FFN 以可学习权重加权融合：w_left·FFN_left(x) + (1−w_left)·FFN_right(x)，替代重复计算，VRAM 节省 21%。

Attention Re-weighting

微调时对注意力权重引入正则项，使模型在学习双臂协调的同时保留单臂预训练知识，避免灾难性遗忘。去掉该组件导致真实环境成功率下降 4%。

Action Head：Conditional Flow Matching

共享的 DiT Action Head 以 conditional flow matching 为训练目标，从带噪声动作 chunk 预测参考流（reference flow）至目标动作 chunk，生成左右臂的协同动作序列。训练数据仅使用公开单臂数据集（OXE）+ 少量双臂演示。

03 实验

在真实世界（5 任务，每任务 20 次 rollout）和两个模拟基准（RoboTwin 2.0 共 50 任务、Tabletop-Sim 共 5 任务）上与 RDT-1B、π₀、DP 对比，同时测试数据效率、鲁棒性和语言跟随能力。

真实世界任务

使用 Anubis 双臂机器人执行折叠毛巾（fold towel）、提取六角扳手、放胡萝卜入袋等 5 个任务，各任务 20 次 rollout。

真实世界实验结果 — 真实世界各任务成功率对比（Figure 5）。TwinVLA 在大多数任务上超越 RDT-1B 和 DP，整体与 π₀ 相当，而训练仅依赖目标域数据（无专有大规模数据）。

模拟基准

鲁棒性测试（Fold Towel 任务）

条件	RDT-1B	π₀	TwinVLA
Low Light（低光照）	15.0%	40.0%	45.0%
With Distractors（干扰物）	15.0%	60.0%	25.0%

在低光照条件下 TwinVLA（45.0%）超越 π₀（40.0%）；在有干扰物情况下 π₀ 表现最佳（60.0%），TwinVLA 表现（25.0%）优于 RDT-1B（15.0%）。

消融实验

变体	模拟成功率变化	真实环境成功率变化
TwinVLA（完整）	—	—
去掉 Attention Re-weighting	−1.1%	−4.0%
再去掉 MoE	−1.1%	−5.0%
再去掉 Joint Attention	−4.0%	−27.0%
从头训练（Scratch）	−4.6%	−46.0%

Joint Attention 对真实环境影响最大（−27%），说明跨臂信息交互是双臂协调的核心；从头训练剧烈下降（−46%）印证了预训练知识迁移的不可或缺性。

04 局限性

说明：以下局限性来自论文明确陈述，并结合设计特点补充标注。

视觉分布偏移（stated）

论文明确指出："Generalization remains limited due to the visual disparity of two arms, which differs from the single-arm pretraining distribution." 双臂摄像头视角与单臂预训练数据存在视觉域差异，限制了模型在新场景中的泛化能力。

依赖绝对末端执行器位姿（stated）

论文指出未来工作应"explore action representations beyond absolute end-effector poses"，当前动作表示为绝对末端位姿，在不同机器人或任务空间下适应性有限。

有干扰物时性能劣于 π₀（inferred）

在有干扰物的鲁棒性测试中，TwinVLA（25.0%）明显低于 π₀（60.0%），说明视觉分心鲁棒性仍有提升空间，可能与双臂视野的数据稀缺性有关。

双臂数据仍不可或缺（inferred）

虽然 TwinVLA 大幅降低了双臂数据需求（仅需 50 条演示），但仍需目标双臂数据进行 fine-tuning，完全 zero-shot 双臂迁移尚未实现。