TMLR 2025 · 交互式模仿学习

ASkDAgger:面向交互式模仿学习的
主动技能级数据聚合

Active Skill-level Data Aggregation for Interactive Imitation Learning
Jelle Luijkx · Zlatan Ajanović · Laura Ferranti · Jens Kober
Delft University of Technology & RWTH Aachen University

ASkDAgger 是一个交互式模仿学习框架,通过让机器人"菜鸟"(novice)在不确定时向人类教师提交其计划动作,从而充分利用该计划所蕴含的信息——自适应调节查询门控阈值、将菜鸟动作复用为示范、并按优先级回放经验——在显著减少人类标注量的同时提升策略性能与泛化能力。

TMLR 2025(08/2025) 语言条件化机器人操作 仿真 + 真实世界验证 项目主页 & 代码 OpenReview
关键词interactive imitation learningDAgger主动学习机器人操作covariate shiftexperience replay语言条件化操作skill-level control人机交互示范查询策略

01 动机(Motivation)

交互式模仿学习(Interactive Imitation Learning, IIL)允许人类在机器人执行任务时提供示范与纠错,是解决协方差偏移(covariate shift)问题的有效手段。然而,人类的教学代价是 IIL 大规模落地的核心瓶颈。

"Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning." —— ASkDAgger 摘要

现有方法的不足

现有主动 DAgger 方法(如 SafeDAgger、ThriftyDAgger)在向教师发出查询时,只是简单地移交控制权,完全抛弃了菜鸟的计划动作。这造成两个损失:

ASkDAgger 的核心思路

ASkDAgger 让菜鸟在不确定时说:"I plan to do this, but I am uncertain."——教师随即对该计划进行验证(validate)、重标注(relabel)或拒绝(reject),并将反馈信息用于三个方面:自适应门控、示范数据集构建、优先回放。

ASkDAgger 系统概览
图 1(论文 Fig.1):ASkDAgger 系统概览。 框架由三个核心组件构成:S-Aware Gating (SAG) 动态调节查询阈值;Foresight Interactive Experience Replay (FIER) 将已验证或重标注的菜鸟计划转化为示范;Prioritized Interactive Experience Replay (PIER) 按不确定性、菜鸟成功率与示范年龄进行优先回放。
3核心组件:SAG / FIER / PIER
C1–C4论文验证的四条核心主张
4 tasksCLIPort 基准任务(仿真)
2 robots真实机器人验证(Franka + Spot)

02 方法(Method)

ASkDAgger 在每个时间步让菜鸟以一定概率向教师提交计划动作,教师给出反馈后,框架通过三个组件分别利用该反馈:自适应调节查询门控(SAG)、将计划复用为示范(FIER)、按优先级回放(PIER)。

SAG 验证结果
图 2(论文 Fig.3):S-Aware Gating (SAG) 在 MNIST 上的验证结果。 三列分别对应以 sensitivity(灵敏度)、specificity(特异度)、system success rate(系统成功率)为目标指标的门控模式。上行:实际指标值随训练步数的变化,与设定目标(虚线)高度吻合;下行:对应的查询率(Query Rate)。SAG 能在整个训练过程中自动追踪并维持用户指定的目标指标。
S-Aware Gating (SAG)

动态调节查询阈值 γ,以追踪用户指定的度量:sensitivity(真阳性率)、specificity(真阴性率)或最低系统成功率。通过对最近 Nmin 次查询的结果进行 logistic 回归,估计当前阈值下的期望指标值,并与目标 σdes 比较后更新阈值。

Foresight Interactive Experience Replay (FIER)

教师对菜鸟计划进行验证或重标注后,将其纳入示范数据集:
· 验证(validate):菜鸟动作本身即为正确示范;
· 重标注(relabel):菜鸟对某目标的失败动作可被标注为另一目标的成功示范(类似 HER);
· 拒绝(reject):菜鸟动作既不合法也无法重标注,需教师另行提供示范。

Prioritized Interactive Experience Replay (PIER)

在回放示范时,依据三个因素赋予优先级:①菜鸟不确定性(uncertainty)越高优先级越高;②菜鸟在该情境下失败(novice failure)的示范优先于成功情境;③越近期收集的示范优先级越高(age)。优先级采样概率公式:P(i, t) ∝ pαi,t,其中 pi,t 综合了不确定性、成功率与年龄三项因素。

问题设定

形式上,ASkDAgger 处理交互式模仿学习(IIL)问题:机器人菜鸟与人类教师交替交互,菜鸟学习从观测 o 到技能参数 a 的映射(即目标条件化的可供性 goal-conditioned affordance)。每个时间步 t,菜鸟输出动作 at 及对应的不确定性 ut。若不确定性超过自适应阈值 γ,则以概率 pquery 向教师发出查询,请教师评价菜鸟的计划动作。教师反馈 rt 指示该动作是否适用于当前目标 g(成功/失败),用于更新 SAG 阈值与 PIER 优先级。

与基线方法的关键区别

SafeDAgger(Zhang & Cho, 2017)使用固定启发式阈值;ThriftyDAgger(Hoque et al., 2022)使用固定查询率;现有主动 DAgger 变体在查询时均放弃菜鸟动作。ASkDAgger 则首次系统性地利用了查询时菜鸟动作所携带的信息,在三个层面(门控、数据集构建、回放)同时获益。

03 实验(Experiments)

论文在三类实验平台上验证了四条核心主张(C1–C4):MNIST 数字分类(验证 SAG)、CLIPort 语言条件化桌面操作仿真(验证 C1–C3)、以及真实世界机器人装配与分拣任务(验证 C1–C4 的实际适用性)。

CLIPort 仿真基准对比(Claims C1–C3)

在 CLIPort(Shridhar et al., 2021)框架下,训练 10 个智能体,采集 300 条交互式示范,在 4 个任务上与以下基线对比:active DAgger(无 FIER 和 PIER)、SafeDAgger、ThriftyDAgger,以及 ASkDAgger w/o FIER、ASkDAgger w/o PIER 消融组。超参数:mode = sensitivity,σdes = 0.9,Nmin = 15,prand = 0.2;PIER:α = 1.5,b = 10,β = 1,λ = 0.5。

主张 实验证据 结论
C1:SAG 追踪指定度量 MNIST 9 种目标值 × 10 次重复 实测指标与 σdes 高度吻合
C2:FIER 减少标注量 CLIPort 4 任务,ASkDAgger vs. active DAgger ASkDAgger 标注示范量显著更低
C3:FIER 提升泛化 CLIPort unseen 任务集(颜色/形状/物体未见) relabeling 带来对 unseen 目标的更优表现
C4:PIER 加速域迁移 三阶段域迁移(seen-shapes → unseen-shapes → seen-google-objects) ASkDAgger 成功率更高,标注更少

结果摘要(来自论文 Fig. 5–6):在所有任务上,ASkDAgger 的累积奖励表现等于或优于所有基线,同时所需教师标注示范(annotation tuples)数量显著更少——因为 ASkDAgger 将大量菜鸟验证动作(validation)和重标注动作(relabeling)直接用作示范,不需要额外的教师标注。

CLIPort 仿真基准结果
图 3(论文 Fig.5–6 所在页):CLIPort 仿真基准任务结果。 上半部分展示 seen(已见)和 unseen(未见)任务集上的累积奖励(Reward)随示范数量的变化曲线;下半部分对比各方法所需的教师标注示范(annotation tuples)数量。ASkDAgger 在所有任务上均表现最优或持平,且所需标注量显著低于 active DAgger 基线和 SafeDAgger/ThriftyDAgger。

域迁移实验(Claim C4)

在三阶段域迁移设置下(每阶段 150 条示范),ASkDAgger(含 PIER)相比 ASkDAgger w/o PIER:在 packing-seen-shapes、packing-unseen-shapes、packing-seen-google-objects-seq 三个连续任务上均实现更高的系统成功率,并在后期阶段收集更少的 annotation tuples(更多来自验证示范)。SAG 在整个训练过程中维持了设定的 sensitivity 水平。

真实世界实验

在 Franka Panda 机器人上进行引擎装配任务(4 种颜色螺栓 × 7 个安装位置,150 条示范):系统成功率维持在较高水平,同时随训练进行,验证示范(validation)比例逐渐增大,标注示范(annotation)比例降低——表明菜鸟策略在实际场景中逐渐无需人工干预即可独立完成任务。此外,在 Boston Dynamics Spot 机器人上的分拣任务也展示了 ASkDAgger 与内置原始技能(primitive skills)集成的能力。

真实世界实验
图 4(论文 Fig.9–10):真实世界引擎装配实验。 (A) 实验装置:Franka Panda 机器人 + RealSense D405 RGB-D 相机 + 3D 打印零件。 (B) Gradio 人机交互界面,支持语音或文本指令输入。 (C) 查询时,操作员可对机器人计划动作进行验证、重标注或拒绝。 (D) 操作员为错误动作提供重标注。 (E) 操作员提供标注示范。 (F) 机器人执行示范动作。 右侧图表:系统成功率(System Success Rate)与菜鸟成功率(Novice Success Rate)随示范数量的变化,以及示范数据集构成(标注 Ann. / 重标注 Rel. / 验证 Val.)的演变。SAG 成功将 sensitivity 维持在目标水平(约 0.9)。

消融分析

消融实验(Fig. 8)表明:去除 FIER(ASkDAgger w/o FIER)后,unseen 任务集上的性能明显下降,因为失去了通过 relabeling 获取 unseen 场景示范的途径;去除 PIER(ASkDAgger w/o PIER)后,域迁移阶段的自适应速度变慢,所需标注量更多。两个组件缺一不可。

04 局限性(Limitations)

说明:以下局限性均来自论文第 6 节"Discussion and Limitations"(作者明确陈述,非推断)。
仅适用于中/高层稀疏奖励控制,不适用于高频低层控制

"ASkDAgger is designed for tasks with sparse rewards and learning mid- to high-level control. While this covers many problems, it does not extend to applications requiring high-rate feedback from the teacher." 因此,ASkDAgger 最适合机器人已有预定义原始技能(primitive skills),需要学习技能选择与参数化的场景,而对于需要连续高频反馈的低层控制任务,其适用性受限。

FIER 依赖"失败动作可被重标注为其他目标的成功示范"这一前提

"FIER significantly improves performance, it relies on recasting failures as successes, which can be challenging in some applications." 若任务结构不允许同一动作对应多个目标(如动作空间缺乏重叠),FIER 的优势会大打折扣。

要求教师在执行前预先验证或重标注菜鸟计划

"ASkDAgger assumes the teacher can validate or relabel actions before execution. This may not always be feasible." 在实时性要求极高或教师不方便在线干预的场景下,执行前反馈可能无法实现。作者指出,在此情况下,验证和重标注可在执行后进行(post-execution),但会影响交互流程。

真实世界中超参数调优仍有挑战

"Tuning hyperparameters in real-world settings is challenging. However, our experiments show that a single set of hyperparameters, without extensive tuning, generalizes effectively across different tasks, suggesting that hyperparameter sensitivity is not strongly dependent on task descriptions." 作者指出问题的存在,但也提供了缓解证据。

实验主要基于 CLIPort 架构,策略架构的泛用性待进一步验证

"Our evaluations primarily used policies with a CLIPort architecture, but ASkDAgger is not limited to this choice. It can be applied to any policy architecture where a teacher can determine the success of actions and provide demonstrations." ASkDAgger 原则上架构无关,但在其他策略架构(如扩散策略、Transformer 等)上的实证验证尚不充分。