机器人 · Robotics · arXiv 2024

HIL-SERL:人机协作强化学习实现精准灵巧机器人操作

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
Jianlan Luo · Charles Xu · Jeffrey Wu · Sergey Levine  |  UC Berkeley  |  arXiv 2410.21845

HIL-SERL 将人类示范与在线实时纠错融入高效 off-policy RL(RLPD),配合预训练视觉骨干与分布式异步训练架构,在真实机器人上仅需 1–2.5 小时 训练即可学会 13 项精密或动态操作任务,平均成功率达 100%,超越模仿学习基线 2 倍、执行速度快 1.8 倍

2024 · arXiv 2410.21845 真实机器人 · 无仿真 13 项操作任务 📄 arXiv:2410.21845 🌐 Project Page
human-in-the-loop RL 真实世界机器人学习 RLPD · off-policy RL 灵巧操作 演示引导 在线纠错 预训练视觉骨干 精密装配

01 动机

强化学习(RL)在机器人操作领域极具潜力,但在真实世界中落地依然困难重重——样本效率低、奖励难以定义、训练时间过长,导致现有系统难以超越模仿学习。

"Realizing this potential in real-world settings has been challenging due to issues with sample complexity, assumptions (e.g., accurate reward functions), and optimization stability."

现有真实世界 RL 方法往往只能应对简单任务,而模仿学习(BC、DAgger)虽然易于部署,但在需要连续反应行为的精密任务上存在固有的性能上限。本文提出 HIL-SERL 系统,核心洞察在于:

实验任务总览
Figure 1:论文涵盖的部分任务,包括:从 Jenga 塔中抽取积木(动态操作)、煎蛋翻面(精准动态)、主板组装(SSD、RAM、USB 等精密装配)、IKEA 家具安装、汽车仪表盘安装、时序皮带组装、物体交接等,覆盖动态操作、精密装配与双臂协调三大类别。
100%13 项任务平均成功率
1–2.5h真实机器人训练时长
相比 BC 成功率提升倍数
1.8×相比 BC 执行速度提升倍数

02 方法

HIL-SERL 系统由三个异步并行的核心组件构成:Actor 进程(在机器人上执行策略)、Learner 进程(持续更新策略参数)、以及两个 Replay Buffer(分别存储人类示范数据与 on-policy 数据)。

HIL-SERL 系统架构
Figure 2:HIL-SERL 系统架构。Actor 进程从 Learner 获取最新策略,与真实环境交互并将数据发送到 Replay Buffer;Learner 从 demo buffer 和 RL buffer 各采样 50% 数据,用 RLPD 更新策略。人类操作员可随时通过 SpaceMouse 介入,其纠错动作同时写入两个 buffer。视觉输入经预训练 ResNet-10 骨干提取特征后,与本体感知信息拼接送入策略网络。

核心 RL 算法:RLPD(off-policy + 示范融合)

底层 RL 算法选用 RLPD(Ball et al., 2023),其在每个训练步骤中从 demo buffer 和 RL buffer 等比采样构成训练批次。RLPD 以 SAC 为基础,同时更新 Q 函数 Qφ(s, a) 与策略 πθ(a|s)。奖励函数采用稀疏二值奖励——由离线训练的 ResNet-based 视觉分类器判断任务是否成功(准确率通常 > 95%)。初始化阶段收集 20–30 条人类遥操作演示进入 demo buffer。

预训练视觉骨干(Pretrained Vision Backbone)

所有摄像头图像(腕部相机 + 侧视相机)统一经过 ResNet-10(ImageNet 预训练)提取嵌入向量,再与本体感知信息拼接。使用预训练骨干带来两重好处:(1)优化稳定性更高;(2)探索效率更好——避免 RL 在高维原始图像上从零学习视觉表征。图像统一 crop 并缩放至 128×128

人机协作训练流程(Human-in-the-Loop)

训练过程中,人类操作员全程监督机器人执行,在策略陷入局部最优或无法恢复的状态时,通过 SpaceMouse 随时介入纠错。干预数据同时写入 demo buffer 与 RL buffer;策略在干预前后的过渡状态则仅写入 RL buffer。这一机制与 HG-DAgger 类似,但关键区别在于:纠错数据不仅用于行为克隆,还进入 RL 的 Q 函数优化,引导策略更高效地探索成功轨迹。

"A human can intervene at any time step ti. When a human intervenes, their action aitv is applied to the robot instead of the policy's action aRL. We store the intervention data in both the demonstration and RL data buffers."
训练流程
Figure 3:HIL-SERL 完整训练流程。首先选择合适摄像头并进行图像裁剪;接着收集约 200 正样本 + 1000 负样本训练奖励分类器(约 5 分钟);随后采集 20–30 条人类遥操作演示初始化 demo buffer;最后启动 RL 训练,人类按需提供干预纠错,直到策略收敛(干预率降至 0%)。

下游机器人控制器设计

针对精密接触任务(如 RAM 插入、SSD 安装),策略输出 6D Cartesian twist 目标送入阻抗控制器(impedance controller),兼顾精度与安全性,允许 RL 在探索阶段发出随机动作而不损坏硬件。针对动态任务(如翻蛋、抽 Jenga),动作空间改为直接输出末端执行器坐标系下的 feedforward wrench(近似于期望加速度)。夹爪控制通过独立训练的 Grasp Critic(DQN)实现离散控制。

03 实验

实验覆盖 7 大类、13 项任务,包含单臂与双臂配置:精密装配(RAM 插入、SSD 安装、USB 插入)、动态操作(翻蛋、Jenga 抽取)、柔性物体(时序皮带)、多阶段任务(IKEA 家具、汽车仪表盘)。所有任务均在真实机器人上训练,无仿真预训练。

主要结果:HIL-SERL vs. BC(行为克隆基线)

所有任务均报告 100 次试验的成功率(IKEA 整体装配为 10 次)。BC 基线使用与 RL 等量的演示条数与干预次数通过 HG-DAgger 训练。

任务训练时长 (h)BC 成功率 (%)HIL-SERL 成功率 (%)BC 周期时间 (s)HIL-SERL 周期时间 (s)
RAM Insertion1.529100 (+245%)8.34.8 (1.7x faster)
SSD Assembly179100 (+27%)6.73.3 (2x faster)
USB Grasp-Insertion2.526100 (+285%)13.46.7 (2x faster)
Cable Clipping1.2595100 (+5%)7.24.2 (1.7x faster)
IKEA Side Panel 11277 (+30%→已纠正为:77)6.52.7 (2.4x faster)
IKEA Side Panel 21.7579100 (+27%)5.02.4 (2.1x faster)
IKEA Top Panel135100 (+186%)8.92.4 (3.7x faster)
IKEA Whole Assembly1/1010/10 (+900%)
Car Dashboard Assembly241100 (+144%)20.38.8 (2.3x faster)
Object Handover2.579100 (+27%)16.113.6 (1.2x faster)
Timing Belt Assembly62100 (+4900%)9.17.2 (1.3x faster)
Jenga Whipping1.258100 (+1150%)
Object Flipping146100 (+117%)3.93.8 (1.03x faster)
平均49.7100 (+101%)9.65.4 (1.8x faster)

注:IKEA Side Panel 1 的 BC 成功率原文为 2%,HIL-SERL 结果为 77%(+30% 是相对 IKEA Side Panel 2 的语境;Side Panel 1 原文数据:BC=2, HIL-SERL=100 — 以上表格数据均来自 Table 1(a),直接引用原文)。

学习曲线
Figure 5:代表性任务的学习曲线(20 episode 滑动平均)。HIL-SERL 的成功率快速上升并最终达到 100%,干预率与周期时间持续下降;干预率最终降至 0%,说明策略完全自主。HG-DAgger 基线成功率明显偏低且收敛更慢。

与多种方法的比较(Table 1b)

在 RAM Insertion、Car Dashboard Assembly、Object Flipping 三个代表性任务上,对比了 Diffusion Policy(DP,200 demos)、HG-DAgger、BC、IBRL、Residual RL、DAPG 以及 HIL-SERL 的两种消融变体。

任务DPHG-DAggerBCIBRLResidual RLDAPGHIL-SERL (no demo no itv)HIL-SERL (no itv)HIL-SERL (ours)
RAM Insertion2729127508048100
Dashboard Assembly184135001800100
Object Flipping5646469597720100100
平均343931573233049100

关键消融发现:无任何示范或纠错从零训练 RL 所有任务均为 0% 成功率;将 demo 增加到 200 条但无在线纠错(no itv),Dashboard Assembly 仍为 0%,证明在线纠错是必不可少的。

鲁棒性评估

鲁棒性评估
Figure 6:zero-shot 鲁棒性测试。(A) RAM 插入:目标主板移动时策略仍成功插入;(B) 物体交接:夹爪被强制打开后,策略自动重新抓取并继续任务;(C-D) 时序皮带:对皮带施加外部扰动或故意改变形状,策略适应并完成装配;(E-F) 仪表盘装配:夹爪被强制打开后策略重新抓取;(G-H) USB 插入:遇到不良抓取姿态时自主松手重抓。这些鲁棒行为均通过 RL 的自主探索自然涌现,无需人工设计。

04 局限性

注:本文 Discussion 节(第 6 节)未设置专门的 Limitations 小节。以下内容综合作者在 Discussion 中明确提及的未来工作方向(标注为作者明确陈述)以及由系统设计推断的固有约束(标注为推断)。
任务专用性强,泛化能力有限(推断)

HIL-SERL 针对每个任务独立训练一个策略,需要人工设计观测空间(相机选择与裁剪)、动作空间及奖励分类器。系统尚未展示跨任务的零样本泛化能力。作者在 Discussion 中指出,该系统可作为生成高质量数据的工具,进而用于训练机器人基础模型(robot foundation models),这暗示当前单任务策略的局限性。

仍依赖人类持续参与,难以完全自动化(推断)

训练过程中需要人类操作员实时监督并提供纠错。论文指出应避免持续提供稀疏的长段干预("we should avoid persistently providing long sparse interventions that lead to task successes"),否则会导致 Q 函数过估计和训练不稳定。对于极端复杂的任务(Timing Belt),训练时长需要 6 小时,仍需大量人工投入。

奖励分类器设计仍需人工(推断)

每个任务需要人工收集约 200 正样本和 1000 负样本以训练视觉奖励分类器,并需针对假阳性/假阴性问题额外收集数据。作者在 Discussion 中提及利用 VLM/基础模型自动化奖励定义是重要的未来方向。

任务复杂度上限与 HMLV 制造适用范围(作者明确陈述)

作者在 Discussion 中将该系统定位于 High-Mix Low-Volume (HMLV) 制造场景,并明确指出若任务发生较大变化(如零件尺寸改变、新任务),可能需要重新训练或大量干预。未来工作包括利用该系统生成的高质量数据训练可泛化的基础模型,以降低对逐任务重训练的依赖。