Spline Policy: 机器人策略的结构化表示

01 动机

现有的模仿学习策略（ACT、Diffusion Policy、FMP、VLA 等）以固定长度的动作序列（action chunk）为输出。这种设计简洁有效，但缺乏几何连续性、时序结构与控制接口：输出的点序列无法直接表达速度、加速度约束，也无法在参数空间内完成轨迹修正或不确定性量化。

"Modern imitation-learning policies for robot manipulation often represent actions as fixed-resolution action chunks, which are simple and effective but expose limited geometric and temporal structure before execution."

Spline Policy overview — **图 1：SP 系统概览。** 左上：策略主干不变，输出接口替换为样条参数，经 Spline Layer 解码为连续轨迹。右上：端到端训练直接对样条参数求导，损失可穿透解码层反传至主干。下：同一样条输出既可作为轨迹解码（Trajectory decoding），也可通过样条到流场的变换（Spline-to-Field）用于闭环执行，提供扰动恢复与控制器兼容性。

4支持的策略主干类型
（Diffusion / Flow / Transformer / VLA）

6仿真操控任务
（3 种输入模态）

10/10SP-PI05 在 PushT 真实任务
成功率

C¹样条连续性保证
跨 replanning 边界

02 方法

SP 的核心思想是只改变输出接口，不改变感知主干。给定观测 o，策略主干输出样条参数 w_θ(o)，由拼接样条基函数 φ(t) 解码为连续轨迹 f_{w_θ(o)}(t) = φ(t) w_θ(o)。在此基础上，SP 提供三类结构化操作：轨迹解码、参数空间约束处理，以及不确定性传播。对于二次样条，还可进一步将轨迹转化为基于解析距离场的向量流场（flow field），支持闭环执行。

SP architecture and training — 策略主干保持感知编码与序列建模能力，Spline Layer 在推理时将样条参数实时解码为任意分辨率轨迹；训练时梯度通过 ∂L_s/∂θ → ∂L_s/∂f_{w_θ} → ∂w_θ/∂θ 链式反传。

结构化轨迹解码（Structured Decoding）

策略输出 K 段拼接二次 Bernstein 样条，每段由 3 个控制点参数化。连续性约束（C⁰、C¹、C²）通过相邻段端点的线性等式约束施加，无需修改网络结构。同一套样条参数可在不同控制频率下解码，解耦了策略学习频率与下游控制器频率。

Boundary constraint visualization — **图 2：连续性约束。** 左：无约束；中：C⁰ 连续（位置连接相邻段）；右：C¹ 连续（额外保证速度连续），使重规划时轨迹更平滑。

Uncertainty propagation — **图 3：不确定性传播。** 观测噪声通过样条参数分布 w_θ(o) ~ N(μ_w, Σ_w) 线性传播到轨迹分布，只需矩阵乘法，无需修改主干或解码器。

流场实现（Flow-Field Realization）

对于二次样条，样条到距离场的解析变换 [文献23] 给出从任意状态 x 到样条的有符号距离 d_θ(x) 及法向量 n_θ(x)。SP 流场由两项叠加构成：

吸引项 v_att(x) = α(x) n_θ(x)：将偏离状态拉回样条曲线（α ≤ 0）。
推进项 v_prog(x) = β(x) f̂_θ(x)：沿切线方向推动机器人前进（β ≥ 0）。

可以证明，在正则性与投影假设下，该流场的诱导动力学不增加到样条的距离（Lyapunov 分析见附录 VII-B），终点处切线为零时终点成为吸引子，提供原则上的局部修正机制。

控制器集成（Controller Integration）

SP 流场可映射至配置空间：q̇_θ = J^†_ψ(q) F_θ(ψ(q))。当障碍物靠近时，基于机器人有符号距离场 Γ_SDF 的碰撞回避速度 q̇_col 被赋予更高优先级，SP 速度投影至其零空间：q̇_θ,proj = (I − ∇_q Γ^† ∇_q Γ) q̇_θ，最终命令 q̇_action = q̇_col + q̇_θ,proj。全程无需重训练策略主干。

03 实验

实验分三个层次：低维 LASA 基准（分析流场机制）、仿真操控基准（SP 作为轨迹输出接口与动作块基线对比）、以及真实机器人案例研究（展示部署层面的兼容性）。主要使用 Diffusion Policy（DP）和 Flow Matching Policy（FMP）作为对齐主干，对应变体分别标记为 SP-Diff / BL-Diff、SP-Flow / BL-Flow。

流场机制：扰动恢复与观测不确定性

Perturbation recovery and uncertainty — **图 8：扰动恢复对比。** 基线模型（Baseline model）在扰动初始状态下轨迹不一致（灰色椭圆高亮区域）；Spline Policy (Flow) 通过状态依赖流场将扰动状态引导回示范轨迹。

在 LASA 数据集（Snake、G-Shape、Sine 三种演示）的 25 次扰动实验中，Spline Policy (Flow) 在 Chamfer Distance (CD)、Convergence Error (CE)、Maximum Speed (MS) 三项指标均优于基线与 SP (Traj.)。

方法	CD mean [mm]	CD min [mm]	CE [mm]	MS [m/s]
Baseline model	26.2	3.7	26.7	13.0
Spline Policy (Traj.) ours	21.0	2.2	28.8	14.3
Spline Policy (Flow) ours	12.8	0.8	1.1	0.25

表 I：扰动条件下的定量评估。CD = Chamfer Distance；CE = Convergence Error；MS = Maximum Speed。数据来自论文 Table I。

在注入高斯观测噪声（σ = 10–40 mm）的实验中，概率变体 Spline Policy (Prob. Traj.) ours 在所有噪声水平下 CD 均最低，Spline Policy (Prob. Flow) ours 次之，均优于基线。具体数值见论文 Table II：σ=10 时 SP(Prob.Traj.) 达 0.7 mm，σ=40 时达 6.1 mm（基线为 20.4 mm）。

仿真操控基准（6 任务 × 3 输入模态）

Benchmark results bar chart — **图 10：仿真基准对比。** SP 在 State / Vision / Point Cloud 三类输入上与 BL-Diff / BL-Flow 对齐主干对比。任务得分基本持平，而 SP 的 Relative FLOPs 降低至 68.1%（State）、86.1%（Vision）、85.4%（Point Cloud），即在**相当性能下网络前向计算量更少**。

SP 在六个任务上（Tool Hang、Can、Push-T、Adroit Door、Adroit Pen、Dexart Laptop）的平均得分与基线相当，"consistent effect is the reduction in policy-output dimensionality and measured network-level forward FLOPs"（引自论文），不作为性能均匀提升的主张，而是等效性能下更高效的证据。

轨迹连续性（Replanning）

在 Push-T 任务的重规划实验中，Spline Policy (Traj.) 可施加跨 replanning 边界的 C¹ 连续性，使速度曲线平滑；基线动作块在 replanning 边界处出现速度不连续（"Motion Jump"），加速度更剧烈。

真实机器人案例（ALOHA 平台）

Real-world case studies — **图 12：真实机器人兼容性案例。** Row 1：视觉条件规划（视野变化下追踪酒瓶位置）；Row 2：推拉扰动下恢复；Row 3：null-space 碰撞回避（未重训练主干）；Row 4：外部指定样条运动（盛满液体的玻璃杯扰动测试）。

真实机器人成功率（Table V，SP-Traj. 不同主干，10 次试验）：

任务	SP-ACT	SP-Diff	SP-PI05
PushT	0/10	6/10	10/10
Toy packing	5/10	8/10	9/10

注：三种主干（ACT 52M、Diffusion 270M、PI05 VLA 4B）共用 SP 轨迹接口，主干规模差异导致性能差异，非 SP 接口本身对比。数据来自论文 Table V。

04 局限性

说明：以下局限性均由作者在论文结论部分（Section VI）明确陈述，标记为 stated。

策略主干质量仍是决定因素（stated）

SP 更改的是预测动作对象的表示，而非策略主干。"It does not remove the need for an accurate and expressive policy backbone. If the policy predicts an inappropriate spline, the structured decoder or the induced flow field cannot by itself guarantee task success."（引自原文）

流场修正仅为局部保证，不适用于高度不连续任务（stated）

"The distance-to-spline corrective property applies to the generated motion under the assumptions of the analytical construction, not to arbitrary task objectives or arbitrary off-manifold states. SP may also be less suitable for highly discontinuous or dynamic interactions, such as hitting a moving object, where additional task-specific modeling or engineering may be required."（引自原文）

解析流场仅限于拼接二次样条（stated）

当前解析距离场与流场构建依赖拼接二次样条的 C⁰/C¹ 连续性。"Extending the construction to broader spline families and evaluating uncertainty-aware or constraint-aware execution policies are important directions for future work."（引自原文）

真实机器人实验非受控对比（stated）

真实机器人实验为兼容性案例研究，"intended as system-level demonstrations of compatibility, rather than controlled comparisons against action-chunk policies"（引自原文）。不同主干的模型规模、预训练、优化器与训练时长均不同，成功率差异不能单独归因于主干架构。