IEEE ICRA 2026 · 机器人 · Robotics

PACS:扩散策略的路径一致性安全过滤

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies
Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias Althoff  ·  TU Munich / Stanford / University of Toronto

Diffusion Policy 凭借大规模演示数据学习复杂操作行为,但本身缺乏安全保证。PACS(Path-Consistent Safety Filtering)通过在动作序列生成的轨迹上执行"路径一致性刹车",在保持训练分布一致性的同时,借助集合可达性分析为动态环境提供形式化安全保证,无需修改策略网络本身。

IEEE ICRA 2026 arXiv: Nov 2025 Franka FR3 · RoboMimic 📄 arXiv:2511.06385 🔗 Project Page
Diffusion Policy 安全过滤 Reachability Analysis 机器人操作 Human-Robot Interaction Control Barrier Function 安全约束 任务成功率

01 动机(Motivation)

Diffusion Policy 在复杂操作任务上表现出色,但由于其随机采样特性,无法保证安全行为,必须依赖外部安全机制。现有反应式安全过滤器(如 Control Barrier Functions,CBF)在阻止危险动作的同时,会将机器人推入训练分布之外的状态,导致后续行为不可预测、任务失败。

"Diffusion policies cannot guarantee safe behavior, requiring external safety mechanisms."
PACS 问题示意图
图1:动态环境部署场景可视化。当人类进入机器人工作空间时,扩散策略生成的动作可能导致碰撞。PACS 在检测到安全威胁时执行路径一致性刹车,维持训练分布一致性,而反应式方法(CBF)则会突然改变运动方向,导致分布外状态。
69%仿真平均任务成功率(PACS PFL)
4%CBF 仿真平均成功率(对比)
80%真实硬件平均安全任务成功率
0%安全违规率(PACS 启用时)

02 方法(Method)

PACS 的核心思想是:不直接修改单步动作,而是将扩散策略生成的整个 action chunk 转化为平滑的预期轨迹,并始终将其与刹车停止轨迹拼接,通过集合可达性分析实时验证整段轨迹的安全性。若通过验证则执行预期运动,否则切换到刹车停止——整个过程保持轨迹与训练分布的一致性。

PACS 系统架构图
图2:PACS 系统架构概览。① 扩散策略生成 action chunk;② 预期轨迹规划器将 action chunk 转换为满足运动学约束的平滑轨迹;③ 集合可达性分析器以 1 kHz 频率实时验证安全约束;④ 监控轨迹由预期段与刹车段拼接而成,并根据验证结果选择执行哪一段。

预期轨迹规划(Intended Trajectory Planning)

将 action chunk 中的路径点序列转化为时间最优、满足运动学与动力学约束的平滑轨迹。关键设计在于轨迹始终经过所有 action 路径点,确保机器人沿扩散策略"意图"的路径运动,而非被外力偏转至未见状态。这种设计使得在遇到障碍物时可以通过降速(而非改变方向)来保证安全,从而避免分布漂移。

集合可达性分析(Set-Based Reachability Analysis)

在运行时以 1 kHz 的频率,对机器人末端执行器的可达集合进行计算,同时考虑测量误差与动态障碍物(如运动中的人手)的不确定运动范围。若预期轨迹的可达集合与障碍物占位集合存在交集,则系统立即切换到预先计算好的刹车轨迹,保证碰撞前机器人可以完全停止。

监控轨迹合成(Monitored Trajectory Composition)

预期轨迹与刹车轨迹始终拼接为完整的"监控轨迹":正常执行时跟随预期段;一旦可达性检验失败,无缝切换到刹车段。等待障碍物离开后,系统可以从当前状态重新请求扩散策略生成新的 action chunk,继续任务,整个过程对策略网络完全透明。

Action Chunk 优势

相比逐步执行单个 action 的方法,利用完整 action chunk 规划轨迹可提升 28% 的任务成功率。多步动作序列提供了更多的时间裕量来执行路径一致性刹车。

与 CBF 的本质区别

CBF 等反应式方法通过修改每个时刻的动作来规避障碍,导致机器人进入训练时从未出现的状态。PACS 从不修改方向,只在原有路径上减速或停止,保持训练分布内。

03 实验(Experiments)

实验在两个层次展开:① 仿真环境使用 RoboMimic 基准(Lift、Can、Square 三个任务),每种配置 100 次 rollout,引入随机进入工作空间的动态障碍物球体;② 真实硬件使用 Franka FR3 机械臂,在三个人机交互任务(分类、交接、喂食)上各执行 30 次 rollout。

仿真结果(RoboMimic,Table I)

方法LiftCanSquare平均
Operational Space Control(上界)1.000.990.740.91
Safety Filter OFF0.920.830.340.70
Control Barrier Functions0.110.000.000.04
PACS (SSM)0.970.800.300.69
PACS (PFL)0.930.850.380.72

真实硬件结果(Franka FR3,Table IV)

任务PACS 任务成功率PACS 安全成功率PACS 安全违规Filter OFF 安全违规
Sorting(分类)80%80%0%67%
Handover(交接)97%97%0%32%
Feeding(喂食)63%63%0%85%
平均80%80%0%56%

与 CBF 的真实硬件对比(Sorting 任务,Table V)

方法任务成功率平均执行时长
PACS80%32.6 ± 11.1 s
Control Barrier Functions43%35.8 ± 18.8 s
Sorting 任务
真实硬件 Sorting(分类)任务:机器人需在人手进入工作空间时安全停止,并在人手离开后继续完成物品分类。
Handover 任务
真实硬件 Handover(交接)任务:机器人将物品递给人类,需实时感知人手位置并保证交互安全。
Feeding 任务
真实硬件 Feeding(喂食)任务:机器人将食物送至人嘴边,此场景中安全违规率在 Filter OFF 时高达 85%,PACS 将其降至 0%。

消融实验(Ablation Study)

对比 action chunk(多步)与 single-action(单步)版本的 PACS:使用单步动作时,SSM 变体平均成功率为 0.41,PFL 变体为 0.44;使用完整 action chunk 后,成功率分别提升至 0.69 和 0.72,提升幅度达 28%。这证实了将完整动作序列转化为时间轨迹是保持任务成功率的关键设计决策。

04 局限性(Limitations)

注:以下局限性部分由作者在论文结论中明确指出,部分由方法设计推断得出。
仅支持动态障碍物,暂不支持半静态障碍物的在线重规划

论文明确指出:"Handling (semi-)static obstacles via constraint-aware online replanning is an interesting avenue for future work."当前 PACS 设计主要针对动态进入工作空间的物体(如人手),对于已在场景中静止存在的障碍物,需要在线轨迹重规划能力,这留待未来工作解决。

路径一致性假设依赖观测中不含显式速度信息

PACS 的安全降速策略(在原有路径上减速而非改变方向)成立的前提是:扩散策略的观测输入中不包含末端执行器的显式速度。若策略被训练成依赖速度观测,则降速可能仍导致分布偏移,需要额外处理。

安全保证依赖障碍物运动模型的准确性

集合可达性分析对动态障碍物(如人手)的运动采用保守的包络假设。若实际运动超出预设的不确定性范围,安全保证可能失效。此外,感知系统的延迟和误差也会影响实时安全验证的可靠性。