Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

01 动机

精细操作任务（opening a lid of a condiment cup、slotting a battery）需要毫米级精度、接触力的精细协调以及视觉闭环反馈，传统上依赖昂贵的高端机器人与精密传感器。本文的核心问题是：能否让低成本、本身不够精确的硬件，通过学习来完成精细操作？

"Can learning enable low-cost and imprecise hardware to perform these fine manipulation tasks?"

低成本硬件的不精确性使感知与规划难度更高。人类虽同样没有工业级本体感觉（proprioception），却能通过学习和视觉闭环反馈完成精密任务。因此，作者设计了端到端像素到动作（pixel-to-action）的策略，并搭建了一套低成本但具备高度灵巧性的遥操作系统来采集高质量演示数据。

ALOHA 系统展示 — 图 1：**ALOHA** 系统概览。左：用户通过反向驱动（backdriving）小型 leader 机器人（WidowX）实现遥操作，follower 机器人（ViperX 6-DoF）镜像跟随。右：ALOHA 可完成穿扎带、开调味品杯、插 RAM 等高精度、接触丰富和动态任务。整套系统预算低于 $20k。

$20k整套系统总预算上限

80–90%真实任务成功率（6 项任务平均）

10 min每个任务所需演示数据量

50 Hz控制与数据采集频率

02 方法

本文提出两大核心贡献：（1）ALOHA 遥操作硬件系统，以及（2）ACT（Action Chunking with Transformers）模仿学习算法。两者协同作用，使低成本硬件能够从少量真实演示中学会精细双臂操作技能。

ALOHA：低成本双臂遥操作系统

ALOHA 以两条 ViperX 6-DoF 机械臂（~$5,600/臂）作为 follower，两条 WidowX 机械臂（~$3,300/臂）作为 leader，采用 joint-space mapping 进行遥操作——用户反向驱动 leader，follower 实时镜像。相比 task-space（末端执行器）映射，joint-space 映射在奇点附近控制更稳定、延迟更低。系统配备 4 路 Logitech C922x 网络摄像头（分辨率 480×640，帧率 30fps），包括顶部、正面和两个腕部摄像头，以 50Hz 采集数据。

ACT：Action Chunking with Transformers

针对模仿学习的两大难题——复合误差（compounding error）和人类演示的非 Markov 噪声，ACT 提出了以下设计：

Action Chunking：策略每次预测未来 k 步的动作序列（而非单步动作），将任务的有效时间跨度压缩 k 倍，大幅缓解复合误差。
Temporal Ensembling：每一时间步都查询策略，对多个重叠 action chunk 的预测结果按指数权重（w_i = exp(−m · i)）加权平均，使轨迹更平滑，且无需额外训练代价。
CVAE 训练目标：将策略建模为 Conditional VAE，通过"style variable" z 捕捉人类演示中的多模态性（multimodality）和随机性。CVAE encoder 在测试时丢弃，z 设为先验均值（即零向量）以确定性解码。

具体实现：CVAE encoder 采用 BERT-style Transformer encoder，输入为 [CLS] token + 关节位置 + 目标动作序列（长度 k+2）；CVAE decoder（即策略）使用 ResNet18 图像编码器 + Transformer encoder-decoder，处理 4 路 480×640 RGB 图像及关节位置，输出 k×14 维动作序列（双臂绝对关节位置）。使用 L1 重建损失 + KL 散度正则化，共约 80M 参数，在单张 RTX 2080 Ti 上训练约 5 小时。

ACT 架构图 — 图 4：ACT 架构。**左（训练时）：**CVAE encoder 将动作序列与关节观测压缩为 style variable z 的均值和方差。**右（训练 + 推断）：**CVAE decoder（策略）融合多视角图像、关节位置和 z，通过 Transformer encoder 合成特征，再由 Transformer decoder 解码为 k 步动作序列。测试时 z=0（先验均值）。

数据采集

每个真实任务收集 50 条演示（Thread Velcro 任务收集 100 条），每条演示耗时 8–14 秒（400–700 步@50Hz），总数据量约 10–20 分钟/任务。演示具有固有随机性——例如空中换手的位置每次都略有不同——这要求策略学习任务的本质规律而非死记演示。

03 实验

实验覆盖 2 个 MuJoCo 仿真任务（Cube Transfer、Bimanual Insertion）和 6 个真实任务（Slide Ziploc、Slot Battery、Open Cup、Thread Velcro、Prep Tape、Put On Shoe），与 BC-ConvMLP、BeT、RT-1、VINN 四条基线对比。仿真任务报告 3 个随机种子、各 50 次评测的平均成功率；真实任务报告 1 个种子、25 次评测的成功率。

主要成功率对比（Table I）

任务	BC-ConvMLP	BeT	RT-1	VINN	ACT (Ours)
Cube Transfer (sim, scripted)	3	16	2	17	82
Cube Transfer (sim, human)	3	16	2	17	82
Bimanual Insertion (sim, scripted)	0	0	0	0	50
Slide Ziploc (real)	0	0	0	0	88
Slot Battery (real)	0	0	0	0	96

ACT 在每个任务上都以大幅优势超越所有基线。仿真任务中，ACT 较第二好方法的成功率领先幅度分别为 59%、49%、29% 和 20%。其他方法虽然能完成前 1–2 个子任务，但最终成功率均低于 30%。

剩余真实任务（Table II，与 BeT 对比）

任务	BeT (最终成功率)	ACT (最终成功率)
Open Cup	0	84%
Thread Velcro	0	20%
Prep Tape	0	64%
Put On Shoe	0	92%

BeT 在上述 4 项高难度任务的最终成功率均为 0，而 ACT 展现出显著能力（Thread Velcro 相对较低是因为该任务需要在空中完成毫米级插入，视觉定位极为困难）。

任务定义与子任务示意 — 图 6：6 个真实世界任务的定义与子任务流程。每个任务的初始物体位置在 15cm 白色参考线范围内随机，子任务逐步递进，要求精细的双臂协调。

消融实验

04 局限性

Note：以下限制部分由作者在论文 Appendix F 及 Section VII 中明确陈述（标注为 stated），部分为设计本身隐含的局限（标注为 inferred）。

超出硬件与算法能力的任务 （stated）

论文明确指出："there exist tasks that are beyond the capability of either the robots or the learning algorithm, such as buttoning up a dress shirt." 此类任务需要更复杂的手指自由度或更长程的规划，当前 parallel-jaw gripper 设计无法胜任。

Thread Velcro 任务成功率较低 （stated）

Thread Velcro 最终成功率仅 20%，每个子任务成功率约减半。主要失败模式：（1）右臂空中夹持过早，无法抓住扎带尾端；（2）插入阶段不够精准，错过 3mm×25mm 的塑料环。根本原因是黑色扎带与背景对比度低，仅占图像极小比例，视觉定位困难。

每个任务独立训练，无任务泛化能力 （inferred）

ACT 对每个任务从零训练独立策略（约 5 小时/任务），模型并不具备跨任务泛化或 few-shot 能力。对新任务需重新采集 50 条演示并重训，这限制了系统在实际部署中的灵活性。

演示量与场景多样性有限 （inferred）

每个任务仅收集 50 条演示（Thread Velcro 为 100 条），物体的位置随机化仅限于 15cm 白色参考线范围内，背景和光照条件相对固定。在更复杂或更多变的真实场景中泛化能力尚未验证。

单用户遥操作，缺乏多操作员鲁棒性 （inferred）

所有演示均由单一操作员采集，人类演示的风格和策略具有操作员依赖性。不同操作员的数据混合可能引入更大的多模态噪声，CVAE 是否足以建模此类噪声尚未验证。