机器人操作 · 符号规划 · 模仿学习

SymSkill:符号与技能协同发明,用于数据高效的反应式长视野操作

Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation
Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa  ·  GRASP Laboratory, University of Pennsylvania

SymSkill 从无标签、未分段的演示数据中联合学习符号谓词、算子和运动技能,将模仿学习的反应性与任务与运动规划(TAMP)的组合性有机结合,仅需 1–10 条演示即可完成多步骤操作任务,并支持实时故障恢复。

arXiv 2510.01661 cs.RO · 2025 RoboCasa 仿真 + 真实 Franka 机械臂 论文原文 →
关键词long-horizon manipulationimitation learning符号规划task and motion planningLPV-DS符号发现skill learning相对位姿谓词故障恢复数据高效机器人学习

01 动机

当前机器人操作领域的两大主流范式——模仿学习与任务规划——分别存在根本性缺陷:前者缺乏可组合性,后者规划延迟高达数十秒,无法在动态环境中实时恢复故障。SymSkill 旨在融合两者的优势。

"Recent imitation learning approaches excel at reproducing skills from large datasets but tend to learn monolithic policies rather than reusable skills and predicates that compose into multi-step plans."

模仿学习的问题

  • 学习的是单块式策略(monolithic policy),难以跨任务复用
  • 缺乏符号结构,无法通过规划组合成多步骤计划
  • 依赖大量标注演示(如 NSIL 需要 200 条)

任务与运动规划(TAMP)的问题

  • 规划延迟极高(>50 秒),无法实时应对动态变化
  • 需要人工设计谓词和算子,工程量大
  • 低层运动规划器对扰动鲁棒性不足
SymSkill 整体流程图
图1:SymSkill 离线与在线流程概览。 离线阶段从无标签演示中联合学习符号谓词、算子和 SE(3) LPV-DS 技能;在线阶段执行符号规划(<100ms)并通过三重监控机制实时恢复故障。
1–10所需演示条数(对比 NSIL/LAMP 的 200 条)
85%RoboCasa 12 任务平均成功率
<100ms符号规划延迟(对比 LAMP/NOD-TAMP 的 >50s)
5 分钟真实机器人所需 play data 时长

02 方法

SymSkill 的核心思想是利用操作任务中普遍存在的以物体为中心的相对位姿结构。系统在相对坐标系下学习谓词和技能,仅离线调用视觉语言模型(VLM)确定参考物体,从而同时保证数据效率和在线反应速度。

SymSkill 详细方法流程
图2:SymSkill 详细方法流程。 五个阶段:(A) 演示分段与参考系选择;(B) 相对位姿谓词学习;(C) 算子学习;(D) SE(3) 技能学习;(E) 在线执行监控与自适应恢复。VLM(Gemini 2.5-Pro)仅用于离线识别参考物体,避免在线推理瓶颈。

阶段一:演示分段与参考系选择

根据速度阈值将每条演示分为预运动段(premotion,仅末端执行器运动)和运动段(motion,末端执行器 + 操作物体同时运动)。对运动段,使用 VLM(Gemini 2.5-Pro)在 n 个均匀采样帧上查询参考物体 o_ref,输出限制为已知场景物体集合,最大程度抑制幻觉。

阶段二:相对位姿谓词学习

谓词 ψ 建模为相对位姿的正态分布:平移分量 p_ee^o ~ N(μ_pos, Σ_pos),旋转分量用对数映射 log(R) ~ N(μ_ori, Σ_ori) 表示。当 Mahalanobis 距离低于阈值 ε_pos 和 ε_ori 时谓词激活。运动段还额外学习物体-物体相对位姿谓词 ψ_o_int^o_ref,并在运动结束后约 2 秒的稳定窗口内增强鲁棒性。

阶段三:算子学习

通过在分段边界处评估谓词,将演示转化为抽象状态序列,识别具有相同效果的重复转换组。算子 α = <params, pre, eff, maintain, skill> 的前条件、效果和维持条件分别通过集合交集运算自动提取,无需人工标注。

阶段四:SE(3) LPV-DS 技能学习

每个算子关联一个在相对坐标系下的 SE(3) Linear Parameter Varying Dynamical Systems(LPV-DS)技能。位置控制使用线性时不变系统的混合 v = Σ γ_k(x) A_k(x - x*),稳定性约束通过半正定规划(SDP)保证。技能的收敛反馈场使其对大范围初始位姿仍能鲁棒追踪目标。

SE(3) LPV-DS 技能可视化
图3:SE(3) LPV-DS 策略可视化(Op3,抓取任务)。 学习到的动力系统展示了从各种初始位姿向目标汇聚的流场,体现了策略的全局稳定性和强鲁棒性。

阶段五:在线执行监控与三重恢复机制

在线执行时系统持续检查维持条件和预期效果。故障触发以下三种恢复机制之一:

03 实验

实验在两个平台上验证:(1) RoboCasa 仿真环境中的 12 个单步任务及多步骤组合;(2) 真实 Franka 机械臂,仅从 5 分钟无结构 play data 中学习。每个任务仅使用 5–10 条演示,并与多个基线方法对比。

表一:与相关工作的对比(Table I,论文原始数据)

方法 谓词类型 技能类型 演示数量 规划延迟
SymSkill(本文) Relative Pose Cluster (Start/End Motion) SE(3) LPV-DS 1–10 <100ms
NSIL Relative Pose Cluster (Low Relative Velocity) MLP BC 200 <100ms
LAMP Relational Critical Regions Motion Planning (MP) 200 >50s
NOD-TAMP NDF Features Optimization + MP 1–10 >50s

表二:RoboCasa 单步仿真结果(Table II,每任务 10 次测试)

任务 本文方法 本文(无监控) 本文(用 Diffusion Policy)
OpenSingleDoor(开单扇门)100%100%0%
CloseSingleDoor(关单扇门)100%80%0%
PnPCounterToCab(台面→橱柜抓放)80%70%0%
PnPCabToCounter(橱柜→台面抓放)100%40%0%
PnPStoveToCounter(灶台→台面抓放)70%30%0%
PnPCounterToStove(台面→灶台抓放)20%0%0%
OpenDrawer(开抽屉)100%100%0%
CloseDrawer(关抽屉)70%50%40%
TurnOnStove(打开燃气灶)100%100%0%
TurnOffStove(关闭燃气灶)80%30%0%
TurnOnSinkFaucet(打开水龙头)100%100%0%
TurnOffSinkFaucet(关闭水龙头)100%90%0%
平均85.0%65.0%3.3%
门操作任务谓词与技能示意
图4:DoorOpen 任务谓词与技能学习示意。 系统在相对坐标系下学习末端执行器到门把手的相对位姿谓词(绿色高亮区域),以及对应的 LPV-DS 运动策略。
真实世界数据采集流程
图5:真实机器人 play data 采集流程。 仅需 5 分钟无结构演示数据(包含积木、香蕉、盘子、碗架、锅盖等多种物体),即可完成离线阶段的谓词与技能发现。

多步骤任务组合(StoreCheese)

在 RoboCasa 中定义新任务 "StoreCheese",由四步组成:开门 → 抓起奶酪 → 放到台面 → 关门,共串联六个技能。无需任何额外数据,直接复用已学谓词/算子/技能完成多步规划,并在执行过程中成功触发多次符号层错误恢复。

真实机器人实验

在真实 Franka 机械臂上,从 5 分钟 play data 中发现 11 个算子(Op1–Op11),涵盖拿放积木、操作锅盖、移动盘子等语义上有意义的操作原语。系统自动发现了诸如 "Thing-in-container"(物体在容器内)此类数据集特有的前条件结构,展示了无监督符号发现的能力。实验验证了三种恢复机制均有效工作。

真实机器人执行与扰动恢复
图6:真实 Franka 机械臂执行多步骤操作并恢复扰动。 图示展示了关锅盖触发符号重规划、移动盘子由 DS 反馈处理、以及通过障碍物规避调制绕过干扰物体的完整过程。

消融实验分析

关键消融结论:

04 局限性

说明:论文无单独的"Limitations"章节,以下各点来源标注:已在结论或讨论中明确提及的标为作者陈述,由方法设计合理推断的标为推断(inferred)
未来扩展方向:自我中心视频学习(作者陈述)

论文结论明确指出:"As future work, we plan to extend our framework to learn directly from egocentric video"。当前系统依赖精确的 6DoF 物体位姿,这在无标记、无结构环境中难以获取,限制了部署通用性。

未来扩展方向:移动操作的规模化(作者陈述)

论文明确提出计划"scale toward mobile manipulation scenarios"。当前方法聚焦于桌面操作,固定基座机械臂场景;移动操作引入的运动基座自由度和更复杂的环境交互尚未处理。

依赖预定义的物体类型(推断 inferred)

问题定义(Section II)假设物体具有预定义类型 λ(o),且场景中的物体需事先已知。这使得系统无法泛化到未见过类型的物体,限制了开放世界部署能力。

单一固定装置变体(推断 inferred)

仿真实验中通过"过滤到每个任务仅一种装置变体"来减少场景变化。现实中厨房、家具等装置存在大量几何和外观多样性,系统对此类变化的鲁棒性尚未充分验证。

VLM 用于参考系识别存在局限(推断 inferred)

尽管 VLM(Gemini 2.5-Pro)的输出被约束到已知场景物体以减少幻觉,但其识别质量仍依赖提示工程,且在物体遮挡严重或外观相似时可能出错。此外,VLM 为闭源模型,存在可重复性和版本依赖问题。