FIPER: Failure Prediction at Runtime for Generative Robot Policies

01 动机

基于生成模型的模仿学习策略（Imitation Learning, IL）在复杂机器人操作任务中取得了显著进展，但它们在现实部署中仍面临严峻的安全挑战：未见过的视觉或状态分布偏移（distribution shift）以及动作预测的误差累积，都可能导致策略产生危险行为甚至任务失败。在面向人类的安全关键环境中，尽早预测此类失效至关重要，以便及时干预或触发安全回退机制。

"Distribution shifts from unseen environments or compounding action errors can still cause unpredictable and unsafe behavior, leading to task failure. Early failure prediction during runtime is therefore essential for deploying robots in human-centered and safety-critical environments."

现有方法存在两类主要缺陷：

纯 OOD 检测方法（如 PCA-kmeans、logp_{Z_O}）：对任何新颖情景都会触发警报，即使策略能够泛化处理该情况，导致大量误报（false alarms）。
基于视觉语言模型（VLM）的监控方法：只能在错误已经发生后才发出警报，无法提前预测失效，失去干预时机。

关键洞察：真正的任务失效同时伴随着两个信号——连续的 OOD 观测以及动作分布的持续高不确定性。仅关注其中之一会导致误报过多或检测过晚。

FIPER 方法框架总览 — 图 1：FIPER 框架总览。左侧为 Score Learning & Calibration 阶段（使用成功 rollout 训练 RND-OE 和 ACE 评分并通过 conformal prediction 标定阈值），右侧为运行时（Policy Deployment）推断阶段——两个子模块的评分在滑动窗口上聚合，当两者同时超过阈值时触发失效警告（Failure Warning）。

5仿真 + 真实世界评测环境数量

0.65平均 Timestep-wise Accuracy (TWA) —— 全部方法最高

0.78平均 Accuracy —— 全部方法最高

0.92整体 True Positive Rate (TPR) —— 高可靠性失效检出

02 方法

FIPER（Failure Prediction at Runtime for generative IL policies）由两个互补子模块组成，分别从观测侧和动作侧检测失效前兆，通过逻辑"与"（AND）组合两者的警告信号，并用 conformal prediction 在少量成功 rollout 上标定各自阈值，实现对误报概率的统计保证。

RND-OE：基于随机网络蒸馏的 OOD 观测检测

Random Network Distillation (RND) 最初用于强化学习中的探索激励。FIPER 将其应用于策略的观测嵌入空间（observation embedding space），利用预训练好的策略编码器 h(·)（如 ResNet-18）提取嵌入，再训练一个预测网络 f_θ(·) 去拟合随机目标网络 g(·) 在 ID 成功数据上的输出。OOD 样本会使两个网络的输出产生较大偏差，RND-OE 评分 s_RND(O_t) = ‖f_θ(O_t) − g(O_t)‖² 即量化这一差异。将该评分在大小为 w_O 的滑动窗口上聚合，得到观测侧失效预测分 η_O。

ACE：动作块熵评分（Action-Chunk Entropy）

生成式策略在成功 rollout 中也可能产生高方差动作（多模态演示），因此方差并不是不确定性的可靠指标。FIPER 通过采样一批动作 A_t^(1..B) ∼ π(·|O_t)，对每个预测步骤计算动作维度上的分箱熵（dimension-wise binning entropy），再对整个 action chunk 求和得到 ACE 评分 s_ACE(A_t)。高熵意味着策略"拿不定主意"——无法确定当前应归属哪种行为模式，是潜在失效的前兆。同样在大小为 w_A 的滑动窗口上聚合，得到动作侧失效预测分 η_A。

Conformal Prediction 阈值标定

利用 M 条成功 rollout（仿真环境 M = 50，真实世界 M = 10）作为标定数据集 D_c，通过 functional conformal prediction 计算时变阈值 γ_O,t 和 γ_A,t。此设计提供统计保证：对于新的成功 rollout τ，FIPER 误报的概率上界为 δ（可调设计参数）：

P(∃t: F(τ_:t) = 1) ≤ δ

仅当两个子模块的聚合评分同时超过各自阈值时，FIPER 才触发失效警告：F(τ_:t) = F_O(τ_:t) ∧ F_A(τ_:t)。逻辑 AND 设计有效抑制误报，同时论文实验表明仍能检出 91% 的真实失效。

多模态动作与 ACE 评分示意 — 图 2：生成式策略中的动作不确定性示意。低熵（left）：策略在多模态演示中坚定地选择某一行为模式；高熵（right）：策略在模式之间摇摆不定，熵值升高，预示潜在失效。ACE 评分设计可正确区分"正常的多模态选择"与"病态的模糊不确定"。

时序动作块与 ACE 评分 — 图 3：时序动作块中的熵评分（ACE）与 STAC 方法对比。ACE 能检测出策略在连续多个时间步上的持续高不确定性，而 STAC 在多模态任务（如 SORTING、STACKING）中容易因模式切换而误判。

03 实验

在 5 个多样化环境中（3 个仿真：SORTING、STACKING、PUSH-T；2 个真实：PRETZEL、PUSH CHAIR）评测 FIPER，覆盖不同机器人形态、观测/动作空间和 OOD 失效模式。基线包括 PCA-kmeans、logp_{Z_O}（FAIL-Detect）、STAC（Sentinel）和 RND-A（ReDiffuser）。评测指标：Timestep-wise Accuracy (TWA)、Accuracy、Detection Time (DT)、TPR、TNR。

仿真任务概览 — 图 4：三个仿真评测任务。左：SORTING（将积木推入颜色匹配的盒子）；中：STACKING（将三个积木堆叠到目标区域，有六种可能排列）；右：PUSH-T（将 T 形物体推入目标构型）。OOD 场景通过改变积木/T 形物尺寸和目标位置引入。

真实世界任务概览 — 图 5：两个真实机器人评测任务。左：PRETZEL（Franka 机器人将绳子折叠成蝴蝶结形状，OOD 为变化绳子初始位姿）；右：PUSH CHAIR（移动操作臂将椅子推到目标位置，OOD 为变化椅子初始位姿）。

主要结果

下表展示 FIPER 与各基线方法的核心指标对比（均值 ± 标准差，五个随机种子）。加粗为最优，下划线为次优。

任务	指标	PCA-kmeans	logp_{Z_O}	RND-A	STAC	FIPER（ours）
SORTING	TWA ↑	0.49	0.54	0.55	0.46	0.54±0.00
	Acc. ↑	0.56	0.67	0.62±0.01	0.48	0.66±0.00
	DT ↓	(0.15)	0.48±0.01	0.34±0.03	(0.46)	0.32±0.00
STACKING	TWA ↑	0.66±0.00	0.58±0.00	0.50±0.00	0.56±0.01	0.62±0.00
	Acc. ↑	0.75±0.00	0.69±0.01	0.59±0.00	0.66±0.00	0.73±0.00
	DT ↓	0.19±0.00	0.49±0.00	(0.44±0.01)	(0.38±0.00)	0.28±0.00
PUSH-T	TWA ↑	0.53±0.00	0.52±0.00	0.52±0.00	0.58±0.00	0.55±0.00
	Acc. ↑	0.58±0.00	0.55±0.01	0.55±0.01	0.71±0.00	0.71±0.00
	DT ↓	(0.11)	(0.26)	(0.20±0.02)	0.52±0.00	0.32±0.00
PRETZEL	TWA ↑	0.64±0.00	0.58±0.03	0.51±0.05	0.51±0.00	0.68±0.03
	Acc. ↑	0.65±0.00	0.65±0.04	0.53±0.05	0.67±0.00	0.85±0.00
	DT ↓	(0.01)	0.24±0.04	(0.52±0.36)	0.44±0.00	0.33±0.07
PUSH CHAIR	TWA ↑	0.50±0.00	0.78±0.02	0.71±0.05	0.73±0.00	0.83±0.02
	Acc. ↑	0.50±0.00	0.92±0.02	0.82±0.05	0.88±0.00	0.96±0.02
	DT ↓	(0.00)	0.26±0.01	0.21±0.02	0.30±0.00	0.27±0.00
Average	TWA ↑	0.57±0.00	0.60±0.01	0.56±0.02	0.57±0.00	0.65±0.01
	Acc. ↑	0.61±0.00	0.69±0.01	0.62±0.03	0.68±0.00	0.78±0.00
	DT ↓	(0.09)	0.35±0.01	0.34±0.09	0.42±0.00	0.30±0.02

括号中的 DT 值（如 (0.15)）表示对应方法的 TPR 或 TNR 低于 0.4，即无法有效区分成功与失败，该检测时间数值无实际参考意义。整体 TPR 达 0.92，说明 FIPER 在多样化环境中可高可靠地预测各类失效。

消融研究

Table 2 对逻辑组合方式与阈值类型进行消融。AND（逻辑与）组合在所有阈值类型下均优于 OR（逻辑或）组合，在 time-varying 阈值下达到最高 TWA（0.65）、Accuracy（0.78）和 TPR（0.91）。关键结论：

逻辑 AND 通过要求两个信号同时超阈来过滤 OOD 成功场景，TNR 高达 0.65，有效抑制误报。
Time-varying 阈值（FIPER 默认）比 CP constant 阈值更早发出警告（DT = 0.30 vs. 0.45），TWA 也更高。
将不确定性评分在滑动窗口上聚合，比逐时刻判断（w=1）和累积全历史两种方案都更稳健，在早发现和低误报之间取得最佳平衡。

04 局限性

Note: 以下局限性均由作者在论文 Conclusions and Limitations 一节中明确指出。

需要收集成功 rollout 数据并单独训练 RND-OE 模型

尽管 FIPER 仅使用少量成功 rollout（仿真 50 条，真实世界 10 条）进行标定，但仍然需要额外收集这些数据并训练一个与策略独立的 RND-OE 网络，增加了部署前的准备工作量。作者将此列为方法的主要局限之一。

高维动作空间下的运行时计算开销

在本文所考虑的环境中，FIPER 的运行时计算量较小。但对于动作空间维度极高的场景（例如人形机器人），ACE 评分所需的批量采样和熵计算可能带来显著的计算延迟，影响实时性。

仅针对单任务视觉模仿学习策略验证

本文评测均基于单任务、视觉输入的 IL 策略（Diffusion Policy 和 flow matching）。将 FIPER 扩展至大规模视觉语言动作模型（VLA，如 π0、OpenVLA）、多模态输入（触觉、语言）以及强化学习生成式策略，仍是未来工作方向，尚未在本文中验证。

需要访问策略内部嵌入空间

RND-OE 复用策略的预训练观测编码器 h(·)，因此 FIPER 不适用于以黑盒 API 形式部署的策略。不过，由于 FIPER 不需要访问训练数据本身，作者预期其对未来 VLA 扩展也能较好适用。