机器人 · Robotics  ·  ICLR 2026 Workshop

Hierarchical Latent Action Model

HiLAM:从无标签视频中分层提取可变长度技能,实现高效长时域操作
Hanjung Kim  ·  Lerrel Pinto  ·  Seon Joo Kim  ·  arXiv 2603.05815 · cs.RO

现有 Latent Action Models (LAMs) 擅长从视频中提取低层动作,但受限于短时域建模,无法捕捉更高层次的"技能"结构。HiLAM 引入动态分块机制 (Dynamic Chunking),将低层 latent actions 自动聚合为可变长度的 latent skills,并通过层次化策略实现显著的数据效率提升。

arXiv 2603.05815 cs.RO ICLR 2026 Workshop on World Models 📄 arXiv:2603.05815 PDF
latent action model hierarchical policy dynamic chunking skill discovery robot learning LIBERO benchmark 无标签视频 长时域操作 VLA pretraining H-Net

01 Motivation

Latent Action Models (LAMs) 通过 Inverse Dynamics Model 从观测视频中推断帧间 latent action,无需人工标注动作标签。然而,现有方法几乎全部聚焦于短时域帧间运动,对视频中本已存在的高层技能结构视而不见。

"existing latent action models are largely limited to short-term motion. As a result, they can capture low-level dynamics from observation-only data but often miss higher-level structure, such as temporally extended skills. This exposes a key gap where actionless videos contain not only primitive motions but also high-level skills that remain underutilized."

此前方法要么预设固定数量的 skill vectors(如 BUDS、SkillDiffuser),要么将固定长度的低层动作序列编码为 skill(如 SPiRL),均无法适应现实世界中技能时长自然变化的特性。HiLAM 的目标是:从无标签视频中自动提取可变长度、无需预先定义 skill set 的层次化 latent skills

HiLAM 整体流程概览
Figure 1 — HiLAM 整体架构。 (a) latent skill 学习流水线:从观测视频中提取 latent actions,再经动态分块得到 latent skills;(b) 训练目标:next-latent prediction + 视觉重建 + H-Net 分块正则;(c) 利用预训练 IDM 逐帧对提取 latent actions。
45%HiLAM 仅用 10% 数据在 LIBERO-Long 的成功率(BAKU 仅 23%)
84%HiLAM 用 50% 数据达到的成功率(≈ BAKU 100% 数据水平)
94%HiLAM 用 100% 数据在 LIBERO-Long 的成功率
4 suites全部 LIBERO 子测试均超越 BAKU baseline

02 Method

HiLAM 由两个阶段组成:首先在大规模无标签视频上预训练层次化 latent skill 模型;然后在目标任务中微调低层策略。核心创新在于 Dynamic Chunking Mechanism,将低层 latent action 序列自适应地分段,得到可变长度的高层 latent skill 表示。

阶段一:Latent Skill Learning

给定观测视频 $\mathcal{V}$,首先用预训练 Inverse Dynamics Model (IDM) 提取低层 latent action 序列 $\mathbf{z}^l$。随后将其输入 H-Net 架构:

Latent skill 提取与策略学习框架
Figure 2 — Latent Skill 提取与策略学习。 (a) 低层 latent actions $\mathbf{z}^l$ 经层次编码后得到段级表示 $\mathbf{z}^s$,再展开回原始时序对齐为 $\mathbf{z}^h$;(b) 层次化策略整体流程:高层策略预测 latent skill,低层策略在给定 skill 条件下预测具体动作。

阶段二:Hierarchical Policy Learning

利用提取的 latent skills 和 latent actions 作为 pseudo-labels,同时训练高层策略 $\pi^h$ 和低层策略 $\pi^l$:

两个策略均基于 BAKU 架构,语言编码器为 T5 encoder。预训练默认使用 Something-Something V2(人类手持物体操作视频),数据处理为 observation-only(丢弃原始动作标注)。

03 Experiments

在 LIBERO 仿真 benchmark 上评估,共 4 个子测试套件(Spatial、Object、Goal、Long),每套 10 个任务各提供 50 条专家演示。基线为 BAKU(当前最优)。预训练数据使用 Something-Something V2(人类视频)、Droid 和 BridgeV2(机器人视频)。预训练和微调各 100k 步。

LIBERO 整体对比(100% 数据)

SuiteBAKUHiLAM提升
LIBERO-Spatial0.890.97+0.08
LIBERO-Object0.991.00+0.01
LIBERO-Goal0.950.97+0.02
LIBERO-Long0.860.94+0.08

数据效率:LIBERO-Long(不同微调数据量)

Fine-tuning 数据量BAKUHiLAM
10%0.230.45
30%0.670.74
50%0.710.84
80%0.860.87
100%0.860.94

论文原文指出:"With only 10% of the demonstrations, BAKU achieves a 23% success rate, whereas HiLAM achieves 45%, nearly doubling performance. With 50% of the demonstrations, HiLAM reaches 84%, comparable to BAKU trained with 100% of the data."

动态技能分块可视化
Figure 3 — Skill 边界预测的定性结果。 利用预测的边界指示 $b^s_t$,将每帧分配到 skill 段 $k^s_t$,并用颜色编号标示。Segment 2:夹爪向碗运动;Segment 3:夹爪拾起碗(此处产生新边界);Segment 4:夹爪移动到目标位置并放置。在无任何标签的无监督训练条件下,HiLAM 自动将连续 latent action 聚合成语义一致的技能段。

Ablations

在 LIBERO-Long 上的消融实验(均使用 100% 微调数据):

Latent Action 预测的未来帧生成质量
Figure 4 — 未来帧预测定性结果。 给定当前帧 $I_t$ 和预测的 latent action $\hat{z}^l_t$,预训练 FDM 生成未来帧 $\hat{I}_{t+k}$。尽管 $\hat{z}^l_t$ 由历史序列 $z^l_{:t-1}$ 预测,仍能产生与真实帧一致的未来帧预测,验证 HiLAM 隐式地对时序动态建模。

04 Limitations

Note: 以下局限性均为论文 "Conclusion and Limitations" 一节中作者明确陈述的内容。
仅在仿真环境中验证,缺乏真实世界实验

"our experiments are primarily conducted in simulated environments such as LIBERO. Validating the framework through real-world experiments would further demonstrate the effectiveness of the proposed method."

依赖预训练 IDM,无法端到端联合训练

"to ensure computational efficiency during temporal modeling, HiLAM utilizes a pretrained IDM. However, training the entire architecture end-to-end could potentially lead to a deeper joint understanding of both low-level motion patterns and high-level skills."

未结合语言信号进行技能发现

论文指出运动线索与语言指令提供的是正交而非平行的信息,两者的结合(尤其是在复杂任务如家具组装中)有望进一步提升技能发现的质量。将层次化 latent action 建模与自然语言结合是有前景的未来方向。(论文原文:"incorporating language represents a promising direction for future research")