arXiv · 机器人操作 · Behavior Cloning

我们应该从基于采样的规划器中学习接触丰富的操作策略吗?

Should We Learn Contact-Rich Manipulation Policies from Sampling-Based Planners?
Huaijiang Zhu · Tong Zhao · Xinpei Ni · Jiuguang Wang · Kuan Fang · Ludovic Righetti · Tao Pang  |  NYU · Boston Dynamics AI Institute · Georgia Tech · Cornell · IRIT

本文揭示了一个关键问题:以 RRT 为代表的流行基于采样的规划器虽然在运动规划中效率极高,却会生成具有不利高熵特性的演示数据,从而严重降低模仿学习策略的性能。作者提出了一套以"演示一致性优先、保持覆盖多样性"为核心的数据生成流程,并结合基于扩散模型的目标条件行为克隆,最终在两个具有挑战性的接触丰富操作任务上实现了零样本硬件迁移。

arXiv 2412.09743 两任务 · 仿真 + 真机验证 零样本 sim-to-real 迁移 论文链接 ↗
关键词contact-rich manipulationsampling-based plannerbehavior cloningdemonstration entropydiffusion policysim-to-real transfer灵巧操作接触规划模仿学习目标条件策略

01 动机

Behavior Cloning(BC)在机器人操作领域取得了巨大成功,但绝大多数工作依赖人工遥操作收集演示数据。对于需要多接触点协调配合的接触丰富操作任务(如双臂搬运、灵巧手重定向),遥操作接口的局限性使得高质量演示的采集极为困难。

"我们的分析揭示,以 RRT(Rapidly Exploring Random Tree)为代表的流行基于采样的规划器虽然在运动规划中效率极高,却会产生具有不利的高熵特性的演示数据。"
— 原文摘要

核心研究问题:能否用基于模型的规划与优化替代人工遥操作,为接触丰富的灵巧操作任务生成训练数据?RRT 等基于采样的规划器真的适合作为 BC 的数据来源吗?

Framework overview
图 1:框架总览。整体流程分为三个阶段:(1) 利用接触感知规划器(Contact RRT 或 Greedy Search)生成演示轨迹;(2) 对轨迹进行平滑与分段执行;(3) 使用基于扩散模型的目标条件行为克隆训练操作策略,并部署到真实硬件。
99%Greedy Search · 100 条演示
IiwaBimanual 任务成功率
44%Contact-RRT · 100 条演示
IiwaBimanual 任务成功率
90%真机硬件
IiwaBimanual 成功率(18/20)
62.5%真机硬件
AllegroHand 成功率(15/24)

为什么 RRT 演示会"难以学习"?

作者从三个维度量化了演示熵:

Entropy comparison RRT vs Greedy
图 2:RRT 与 Greedy 数据集的熵对比。展示了 IiwaBimanual(IB)和 AllegroHand(AH)任务中线速度和角速度方向的熵。白色区域表示该区域无数据覆盖。Greedy Search 在整个状态空间中保持显著更低的熵。

02 方法

作者提出一套以一致性优先的数据生成流程,结合为接触操作定制的低熵规划器与基于扩散模型的目标条件 BC 框架,以实现从规划数据到可部署策略的完整通道。

核心问题:高熵演示何以产生?

RRT 的核心机制是通过随机采样在状态空间中快速探索,这赋予了它出色的全局覆盖能力,但同时导致:对同一起始状态可能产生多条截然不同的解路径,聚合后形成高熵数据集。此外,RRT 的分叉探索方式使得接触切换(regrasp)的时机高度不确定。

面向 IiwaBimanual 的 Greedy Search

对于双臂圆柱体旋转任务,作者设计了一种贪婪搜索规划器:在不采样子目标的情况下,迭代求解接触优化问题;仅在遭遇关节极限时才采样新的抓取姿态。该规划器以接触稳定性为首要目标,确保每一步都朝着目标方向稳步推进,从而产生低熵、单调收敛的演示。

面向 AllegroHand 的 PRM 规划器

对于 16-DoF 灵巧手方块重定向任务,作者使用概率路线图(PRM)规划器:以 24 个标准朝向作为图节点,通过预计算的 primitives(PitchPlus90、YawPlus45、YawMinus45)连接节点。这种结构"同时保证了完备性与一致性"。部署时采用混合策略(Hybrid Policy):主策略(1000 条演示训练)执行任意目标重定向,调整策略(5000 条演示训练)负责从最近标准朝向到精确目标朝向的精细调节,两者配合使成功率提升约 10%。

Example demonstrations comparison
图 3:IiwaBimanual(IB)与 AllegroHand(AH)的示例演示对比。实线框表示目标物体配置。对于两个任务,Contact-RRT 的路径明显更为迂回曲折(高熵),而 Greedy Search 的轨迹则直接收敛到目标(低熵)。

基于扩散模型的目标条件行为克隆

策略学习采用 DDPM(Denoising Diffusion Probabilistic Model) 作为动作头,输入历史状态序列与目标状态,输出动作序列(而非单步动作),以提升时序一致性。通过 Feature-wise Linear Modulation(FiLM) 对观测与目标进行条件化,再将嵌入融合到去噪网络的各层中。训练使用 AdamW 优化器,学习率 1×10⁻⁴,批大小 256,训练 50 个 epoch。此外引入 Hindsight Goal Relabeling,大幅扩充有效训练样本。

Trajectory analysis: progress and regrasp entropy
图 4:轨迹分析——目标进展与重抓取熵。纵轴为物体到目标的归一化加权距离,横轴为轨迹完成百分比。每条彩色曲线代表一条演示轨迹;曲线上的点表示重抓取时刻;灰色条形图显示离散时间段内的重抓取熵。(a-b) IiwaBimanual 的 Contact-RRT 与 Greedy Search 对比;(d-f) AllegroHand 的对应分析。Greedy Search 的轨迹单调收敛,重抓取熵始终较低。

03 实验

实验覆盖两个接触丰富操作任务:IiwaBimanual(两台 7-DoF 机械臂协作旋转直径 0.6m 圆柱体 180°)和 AllegroHand(16-DoF 灵巧手将 6cm 立方体重定向到目标朝向)。在仿真中全面评估,并在真实硬件上进行零样本迁移测试。

实验一:规划器类型 × 演示数量对 IiwaBimanual 的影响(TABLE I)

评价指标:在 100 个随机初始位置上测试,位置误差 < 0.1m 且朝向误差 < 0.2 rad 视为成功。

规划器 / 数据集100 条演示500 条演示1000 条演示5000 条演示
Contact-RRT44%63%88%84%
Greedy Search99%98%99%100%

核心发现:Greedy Search 仅需 100 条演示即可达到 99% 成功率,而 Contact-RRT 即使增加到 5000 条演示也只能达到 84%,甚至低于 1000 条演示时的 88%,表明高熵演示不仅样本效率低下,且增大数据量并不能有效缓解问题。

实验二:仿真与真机综合性能(TABLE II)

仿真评估取最优 checkpoint 结果;真机硬件测试为零样本迁移(无额外微调)。

任务变体仿真成功率位置误差朝向误差真机成功率
AllegroHandEasy-Unified74%1.7±2.0 cm31.5±38.3°
AllegroHandHard-Hybrid68%1.9±1.1 cm28.1±31.5°62.5% (15/24)
AllegroHandEasy-Hybrid62.5% (15/24)
IiwaBimanual99%1.8±0.5 cm2.9±3.1°90% (18/20)

关键消融:混合策略的贡献

对于 AllegroHand 任务,引入调整策略(Adjustment Policy)使最终成功率提升约 10%。主策略负责粗调,从任意初始朝向到达最近的标准朝向;调整策略负责精调,从标准朝向到精确目标朝向。两者的分工使策略在 Hard 变体(目标均匀采样自 SO(3))上也能达到稳健表现。

Sim-to-Real 迁移细节

真机与仿真间存在系统误差:物体实际质量 1.25 kg(仿真为 1.0 kg),实际直径 0.59m(仿真为 0.6m)。尽管如此,IiwaBimanual 真机成功率达 90%,AllegroHand 达 62.5%,均实现了零样本硬件迁移,验证了低熵演示对策略泛化能力的积极作用。

04 局限性

说明:论文在正文及结论部分明确讨论了以下局限性,均为作者明确陈述(stated)的内容,未进行额外推断。
高熵演示 → 低数据效率(RRT 的根本局限)

RRT 规划器在全局路径规划方面表现优异,但其生成的演示具有"不利的高熵特性(unfavorably high entropy)",在低数据量下尤其难以学习。即使增加到 5000 条演示,Contact-RRT 的成功率仍低于 Greedy Search 使用 100 条演示时的水平,揭示了采样随机性与 BC 对一致性需求之间的根本矛盾。

仿真数据的局限:无法模拟非刚体接触

作者明确指出:"Generating data entirely from simulation comes with its own limitations." 当前方法不适用于涉及非刚体物体(如柔性材料、布料)的操作任务——这类物体的接触动力学目前既无法被真实地仿真,也无法被有效规划。

分布外场景泛化不足(AllegroHand)

AllegroHand 任务的失败案例主要发生在"物体落入训练数据中未出现过的配置(configurations not present in training data)"时,表明策略对超出训练分布的状态泛化能力有限。这一问题与规划器的覆盖范围直接相关。

IiwaBimanual 的"抖振"行为(Chattering)

IiwaBimanual 策略偶尔表现出"chattering-like behaviors where the policy switches between different action modes",即策略在多种动作模式之间快速切换,导致执行不稳定。这可能源于扩散策略在多模态动作分布下的随机性。

规划器覆盖受限 → 无法使用 DAgger

"Current planner unable to find solutions from arbitrary system configurations",导致无法应用 DAgger 等需要从任意状态恢复的在线数据增强方法。这将方法局限于离线 BC 范式,限制了进一步提升性能的可能性。

Sim-to-Real 系统误差(质量与几何)

真机实验中存在不可忽视的模型失配:物体质量差异(真机 1.25 kg vs. 仿真 1.0 kg)以及几何尺寸差异(真机直径 0.59m vs. 仿真 0.6m)。当前成功依赖于策略对这些小偏差的鲁棒性,更大的物理差异可能导致性能显著下降。