我们应该从基于采样的规划器中学习接触丰富操作策略吗？

01 动机

Behavior Cloning（BC）在机器人操作领域取得了巨大成功，但绝大多数工作依赖人工遥操作收集演示数据。对于需要多接触点协调配合的接触丰富操作任务（如双臂搬运、灵巧手重定向），遥操作接口的局限性使得高质量演示的采集极为困难。

"我们的分析揭示，以 RRT（Rapidly Exploring Random Tree）为代表的流行基于采样的规划器虽然在运动规划中效率极高，却会产生具有不利的高熵特性的演示数据。"
— 原文摘要

核心研究问题：能否用基于模型的规划与优化替代人工遥操作，为接触丰富的灵巧操作任务生成训练数据？RRT 等基于采样的规划器真的适合作为 BC 的数据来源吗？

Framework overview — **图 1：框架总览。**整体流程分为三个阶段：(1) 利用接触感知规划器（Contact RRT 或 Greedy Search）生成演示轨迹；(2) 对轨迹进行平滑与分段执行；(3) 使用基于扩散模型的目标条件行为克隆训练操作策略，并部署到真实硬件。

99%Greedy Search · 100 条演示
IiwaBimanual 任务成功率

44%Contact-RRT · 100 条演示
IiwaBimanual 任务成功率

90%真机硬件
IiwaBimanual 成功率（18/20）

62.5%真机硬件
AllegroHand 成功率（15/24）

为什么 RRT 演示会"难以学习"？

作者从三个维度量化了演示熵：

速度方向熵（Velocity Direction Entropy）：RRT 规划路径迂回，在状态空间中各位置的物体运动方向高度发散，导致在同一状态下策略需要"预测"多个截然不同的动作；
目标进展分布（Progress Toward Goal）：RRT 演示的目标进展分布分散，甚至偶尔出现负进展（远离目标），而 Greedy Search 演示则单调收敛；
重新抓取熵（Regrasp Entropy）：RRT 的重抓取熵几乎始终接近 1，意味着在任意时刻执行重抓取的概率约为 50%，策略无从判断何时应执行重抓取动作。

Entropy comparison RRT vs Greedy — **图 2：RRT 与 Greedy 数据集的熵对比。**展示了 IiwaBimanual（IB）和 AllegroHand（AH）任务中线速度和角速度方向的熵。白色区域表示该区域无数据覆盖。Greedy Search 在整个状态空间中保持显著更低的熵。

02 方法

作者提出一套以一致性优先的数据生成流程，结合为接触操作定制的低熵规划器与基于扩散模型的目标条件 BC 框架，以实现从规划数据到可部署策略的完整通道。

核心问题：高熵演示何以产生？

RRT 的核心机制是通过随机采样在状态空间中快速探索，这赋予了它出色的全局覆盖能力，但同时导致：对同一起始状态可能产生多条截然不同的解路径，聚合后形成高熵数据集。此外，RRT 的分叉探索方式使得接触切换（regrasp）的时机高度不确定。

面向 IiwaBimanual 的 Greedy Search

对于双臂圆柱体旋转任务，作者设计了一种贪婪搜索规划器：在不采样子目标的情况下，迭代求解接触优化问题；仅在遭遇关节极限时才采样新的抓取姿态。该规划器以接触稳定性为首要目标，确保每一步都朝着目标方向稳步推进，从而产生低熵、单调收敛的演示。

面向 AllegroHand 的 PRM 规划器

对于 16-DoF 灵巧手方块重定向任务，作者使用概率路线图（PRM）规划器：以 24 个标准朝向作为图节点，通过预计算的 primitives（PitchPlus90、YawPlus45、YawMinus45）连接节点。这种结构"同时保证了完备性与一致性"。部署时采用混合策略（Hybrid Policy）：主策略（1000 条演示训练）执行任意目标重定向，调整策略（5000 条演示训练）负责从最近标准朝向到精确目标朝向的精细调节，两者配合使成功率提升约 10%。

Example demonstrations comparison — **图 3：IiwaBimanual（IB）与 AllegroHand（AH）的示例演示对比。**实线框表示目标物体配置。对于两个任务，Contact-RRT 的路径明显更为迂回曲折（高熵），而 Greedy Search 的轨迹则直接收敛到目标（低熵）。

基于扩散模型的目标条件行为克隆

策略学习采用 DDPM（Denoising Diffusion Probabilistic Model） 作为动作头，输入历史状态序列与目标状态，输出动作序列（而非单步动作），以提升时序一致性。通过 Feature-wise Linear Modulation（FiLM） 对观测与目标进行条件化，再将嵌入融合到去噪网络的各层中。训练使用 AdamW 优化器，学习率 1×10⁻⁴，批大小 256，训练 50 个 epoch。此外引入 Hindsight Goal Relabeling，大幅扩充有效训练样本。

Trajectory analysis: progress and regrasp entropy — **图 4：轨迹分析——目标进展与重抓取熵。**纵轴为物体到目标的归一化加权距离，横轴为轨迹完成百分比。每条彩色曲线代表一条演示轨迹；曲线上的点表示重抓取时刻；灰色条形图显示离散时间段内的重抓取熵。(a-b) IiwaBimanual 的 Contact-RRT 与 Greedy Search 对比；(d-f) AllegroHand 的对应分析。Greedy Search 的轨迹单调收敛，重抓取熵始终较低。

03 实验

实验覆盖两个接触丰富操作任务：IiwaBimanual（两台 7-DoF 机械臂协作旋转直径 0.6m 圆柱体 180°）和 AllegroHand（16-DoF 灵巧手将 6cm 立方体重定向到目标朝向）。在仿真中全面评估，并在真实硬件上进行零样本迁移测试。

实验一：规划器类型 × 演示数量对 IiwaBimanual 的影响（TABLE I）

评价指标：在 100 个随机初始位置上测试，位置误差 < 0.1m 且朝向误差 < 0.2 rad 视为成功。

规划器 / 数据集	100 条演示	500 条演示	1000 条演示	5000 条演示
Contact-RRT	44%	63%	88%	84%
Greedy Search	99%	98%	99%	100%

核心发现：Greedy Search 仅需 100 条演示即可达到 99% 成功率，而 Contact-RRT 即使增加到 5000 条演示也只能达到 84%，甚至低于 1000 条演示时的 88%，表明高熵演示不仅样本效率低下，且增大数据量并不能有效缓解问题。

实验二：仿真与真机综合性能（TABLE II）

仿真评估取最优 checkpoint 结果；真机硬件测试为零样本迁移（无额外微调）。

任务	变体	仿真成功率	位置误差	朝向误差	真机成功率
AllegroHand	Easy-Unified	74%	1.7±2.0 cm	31.5±38.3°	—
AllegroHand	Hard-Hybrid	68%	1.9±1.1 cm	28.1±31.5°	62.5% (15/24)
AllegroHand	Easy-Hybrid	—	—	—	62.5% (15/24)
IiwaBimanual	—	99%	1.8±0.5 cm	2.9±3.1°	90% (18/20)

关键消融：混合策略的贡献

对于 AllegroHand 任务，引入调整策略（Adjustment Policy）使最终成功率提升约 10%。主策略负责粗调，从任意初始朝向到达最近的标准朝向；调整策略负责精调，从标准朝向到精确目标朝向。两者的分工使策略在 Hard 变体（目标均匀采样自 SO(3)）上也能达到稳健表现。

Sim-to-Real 迁移细节

真机与仿真间存在系统误差：物体实际质量 1.25 kg（仿真为 1.0 kg），实际直径 0.59m（仿真为 0.6m）。尽管如此，IiwaBimanual 真机成功率达 90%，AllegroHand 达 62.5%，均实现了零样本硬件迁移，验证了低熵演示对策略泛化能力的积极作用。

04 局限性

说明：论文在正文及结论部分明确讨论了以下局限性，均为作者明确陈述（stated）的内容，未进行额外推断。

高熵演示 → 低数据效率（RRT 的根本局限）

RRT 规划器在全局路径规划方面表现优异，但其生成的演示具有"不利的高熵特性（unfavorably high entropy）"，在低数据量下尤其难以学习。即使增加到 5000 条演示，Contact-RRT 的成功率仍低于 Greedy Search 使用 100 条演示时的水平，揭示了采样随机性与 BC 对一致性需求之间的根本矛盾。

仿真数据的局限：无法模拟非刚体接触

作者明确指出："Generating data entirely from simulation comes with its own limitations." 当前方法不适用于涉及非刚体物体（如柔性材料、布料）的操作任务——这类物体的接触动力学目前既无法被真实地仿真，也无法被有效规划。

分布外场景泛化不足（AllegroHand）

AllegroHand 任务的失败案例主要发生在"物体落入训练数据中未出现过的配置（configurations not present in training data）"时，表明策略对超出训练分布的状态泛化能力有限。这一问题与规划器的覆盖范围直接相关。

IiwaBimanual 的"抖振"行为（Chattering）

IiwaBimanual 策略偶尔表现出"chattering-like behaviors where the policy switches between different action modes"，即策略在多种动作模式之间快速切换，导致执行不稳定。这可能源于扩散策略在多模态动作分布下的随机性。

规划器覆盖受限 → 无法使用 DAgger

"Current planner unable to find solutions from arbitrary system configurations"，导致无法应用 DAgger 等需要从任意状态恢复的在线数据增强方法。这将方法局限于离线 BC 范式，限制了进一步提升性能的可能性。

Sim-to-Real 系统误差（质量与几何）

真机实验中存在不可忽视的模型失配：物体质量差异（真机 1.25 kg vs. 仿真 1.0 kg）以及几何尺寸差异（真机直径 0.59m vs. 仿真 0.6m）。当前成功依赖于策略对这些小偏差的鲁棒性，更大的物理差异可能导致性能显著下降。