Hierarchical Latent Action Model

01 Motivation

Latent Action Models (LAMs) 通过 Inverse Dynamics Model 从观测视频中推断帧间 latent action，无需人工标注动作标签。然而，现有方法几乎全部聚焦于短时域帧间运动，对视频中本已存在的高层技能结构视而不见。

"existing latent action models are largely limited to short-term motion. As a result, they can capture low-level dynamics from observation-only data but often miss higher-level structure, such as temporally extended skills. This exposes a key gap where actionless videos contain not only primitive motions but also high-level skills that remain underutilized."

此前方法要么预设固定数量的 skill vectors（如 BUDS、SkillDiffuser），要么将固定长度的低层动作序列编码为 skill（如 SPiRL），均无法适应现实世界中技能时长自然变化的特性。HiLAM 的目标是：从无标签视频中自动提取可变长度、无需预先定义 skill set 的层次化 latent skills。

HiLAM 整体流程概览 — **Figure 1 — HiLAM 整体架构。** (a) latent skill 学习流水线：从观测视频中提取 latent actions，再经动态分块得到 latent skills；(b) 训练目标：next-latent prediction + 视觉重建 + H-Net 分块正则；(c) 利用预训练 IDM 逐帧对提取 latent actions。

45%HiLAM 仅用 10% 数据在 LIBERO-Long 的成功率（BAKU 仅 23%）

84%HiLAM 用 50% 数据达到的成功率（≈ BAKU 100% 数据水平）

94%HiLAM 用 100% 数据在 LIBERO-Long 的成功率

4 suites全部 LIBERO 子测试均超越 BAKU baseline

02 Method

HiLAM 由两个阶段组成：首先在大规模无标签视频上预训练层次化 latent skill 模型；然后在目标任务中微调低层策略。核心创新在于 Dynamic Chunking Mechanism，将低层 latent action 序列自适应地分段，得到可变长度的高层 latent skill 表示。

阶段一：Latent Skill Learning

给定观测视频 $\mathcal{V}$，首先用预训练 Inverse Dynamics Model (IDM) 提取低层 latent action 序列 $\mathbf{z}^l$。随后将其输入 H-Net 架构：

Dynamic Chunking Mechanism：在每个阶段 $s$，编码器 $\mathcal{E}^s$ 将输入序列映射为 feature $h^s_t$，并计算相邻 token 的余弦相似度来预测分块边界指示 $b^s_t \in \{0,1\}$。当连续 token 差异较大时（即 $p^s_t \geq 0.5$），产生新边界，将序列自动切分为可变长度的段。
多级压缩：边界处的 encoder 特征被选出，作为下一阶段的输入 $\mathbf{z}^{s+1}$，实现逐级压缩。高阶段的 token（如 $\mathbf{z}^2$）代表更长时域的语义段，即 latent skills $\mathbf{z}^h$。
训练目标：联合优化三项损失 $\mathcal{L} = \mathcal{L}_{\mathrm{latent}} + \lambda_{\mathrm{rec}}\,\mathcal{L}_{\mathrm{rec}} + \lambda_{\mathrm{ratio}}\,\mathcal{L}_{\mathrm{ratio}}$，分别对应 next-latent prediction（$\ell_1$ loss）、Forward Dynamics Model 的视觉重建监督、以及 H-Net 分块比例正则项。

Latent skill 提取与策略学习框架 — **Figure 2 — Latent Skill 提取与策略学习。** (a) 低层 latent actions $\mathbf{z}^l$ 经层次编码后得到段级表示 $\mathbf{z}^s$，再展开回原始时序对齐为 $\mathbf{z}^h$；(b) 层次化策略整体流程：高层策略预测 latent skill，低层策略在给定 skill 条件下预测具体动作。

阶段二：Hierarchical Policy Learning

利用提取的 latent skills 和 latent actions 作为 pseudo-labels，同时训练高层策略 $\pi^h$ 和低层策略 $\pi^l$：

预训练：高层策略 $\pi^h$ 根据当前观测和语言指令预测 latent skill $\hat{z}^h_t$；低层策略 $\pi^l$ 在给定 skill 条件下预测 latent action $\hat{z}^l_t$。两者均以无标签视频为数据源。
微调：冻结高层策略 $\pi^h$，仅用目标域的带动作标注数据微调低层策略，输出可执行的真实动作。

两个策略均基于 BAKU 架构，语言编码器为 T5 encoder。预训练默认使用 Something-Something V2（人类手持物体操作视频），数据处理为 observation-only（丢弃原始动作标注）。

03 Experiments

在 LIBERO 仿真 benchmark 上评估，共 4 个子测试套件（Spatial、Object、Goal、Long），每套 10 个任务各提供 50 条专家演示。基线为 BAKU（当前最优）。预训练数据使用 Something-Something V2（人类视频）、Droid 和 BridgeV2（机器人视频）。预训练和微调各 100k 步。

LIBERO 整体对比（100% 数据）

Suite	BAKU	HiLAM	提升
LIBERO-Spatial	0.89	0.97	+0.08
LIBERO-Object	0.99	1.00	+0.01
LIBERO-Goal	0.95	0.97	+0.02
LIBERO-Long	0.86	0.94	+0.08

数据效率：LIBERO-Long（不同微调数据量）

Fine-tuning 数据量	BAKU	HiLAM
10%	0.23	0.45
30%	0.67	0.74
50%	0.71	0.84
80%	0.86	0.87
100%	0.86	0.94

论文原文指出："With only 10% of the demonstrations, BAKU achieves a 23% success rate, whereas HiLAM achieves 45%, nearly doubling performance. With 50% of the demonstrations, HiLAM reaches 84%, comparable to BAKU trained with 100% of the data."

动态技能分块可视化 — **Figure 3 — Skill 边界预测的定性结果。** 利用预测的边界指示 $b^s_t$，将每帧分配到 skill 段 $k^s_t$，并用颜色编号标示。Segment 2：夹爪向碗运动；Segment 3：夹爪拾起碗（此处产生新边界）；Segment 4：夹爪移动到目标位置并放置。在无任何标签的无监督训练条件下，HiLAM 自动将连续 latent action 聚合成语义一致的技能段。

Ablations

在 LIBERO-Long 上的消融实验（均使用 100% 微调数据）：

预训练数据：人类视频优于机器人视频（Human: 0.94 vs Robot: 0.90），因此默认使用 Something-Something V2。
Latent skill 阶段选择：使用 stage $s=2$ 作为 latent skill、$s=0$ 作为 latent action 条件效果最佳（成功率 0.94）；组合 $s=2$+$s=1$ 下降至 0.89。Stage-2 由最深编码器生成，捕捉更长时域上下文和更具语义凝聚力的分段。
非层次化 baseline：仅用 latent action 条件预训练 BAKU（不做层次化）最高达 0.91，但仍低于 HiLAM 的 0.94，说明层次化策略结构本身带来了额外增益。
无预训练：仅在目标任务上训练层次化策略，成功率仅 0.67，说明性能提升源于大规模预训练，而非架构本身。

Latent Action 预测的未来帧生成质量 — **Figure 4 — 未来帧预测定性结果。** 给定当前帧 $I_t$ 和预测的 latent action $\hat{z}^l_t$，预训练 FDM 生成未来帧 $\hat{I}_{t+k}$。尽管 $\hat{z}^l_t$ 由历史序列 $z^l_{:t-1}$ 预测，仍能产生与真实帧一致的未来帧预测，验证 HiLAM 隐式地对时序动态建模。

04 Limitations

Note: 以下局限性均为论文 "Conclusion and Limitations" 一节中作者明确陈述的内容。

仅在仿真环境中验证，缺乏真实世界实验

"our experiments are primarily conducted in simulated environments such as LIBERO. Validating the framework through real-world experiments would further demonstrate the effectiveness of the proposed method."

依赖预训练 IDM，无法端到端联合训练

"to ensure computational efficiency during temporal modeling, HiLAM utilizes a pretrained IDM. However, training the entire architecture end-to-end could potentially lead to a deeper joint understanding of both low-level motion patterns and high-level skills."

未结合语言信号进行技能发现

论文指出运动线索与语言指令提供的是正交而非平行的信息，两者的结合（尤其是在复杂任务如家具组装中）有望进一步提升技能发现的质量。将层次化 latent action 建模与自然语言结合是有前景的未来方向。（论文原文："incorporating language represents a promising direction for future research"）