Learning What You Can Do Before Doing Anything

01 动机

智能体在真实世界中行动时需要通过感知来判断自己可以做什么、以及这些动作会带来什么后果。现有的强化学习方法需要主动交互才能获取动作空间信息，而这在很多场景下代价高昂甚至不可行（例如使用互联网视频进行模仿学习）。

"Intelligent agents can learn to represent the action spaces of other agents simply by observing them act. Such representations help agents quickly learn to predict the effects of their own actions on the environment and to plan complex action sequences."

作者受婴儿学步的启发：婴儿在能够自主行走之前，已通过大量被动感知成年人行走积累了动作空间的先验知识。类比地，本文提出：纯从被动视频观察中学习动作表征，可以让后续学习更加高效——无论是动作条件视频预测还是规划任务，都只需极少量标注数据。

Learned action space visualization — **图1：CLASP 学到的动作表征空间可视化（reacher 数据集）。**每个点代表一帧对的隐变量 z，颜色对应真实旋转角度（radians）。
*左（baseline Denton & Fergus 2018）：*隐空间与真实动作无对应关系，学习失败。
*右（CLASP）：*第一主成分解释了 99% 方差，学到的 z 与真实动作高度一致。

100Kreacher 无标注训练序列

~orders of magnitude所需标注数据更少

1.6°CLASP 视觉伺服距离误差（10K 标注）

30%BAIR 数据集上监督基线差距缩短比例

02 方法

CLASP 在随机视频预测模型的隐变量上施加两个关键约束：minimality（最小性）与 composability（可组合性），从而迫使隐变量聚焦于动作相关的动态信息，同时与静态场景内容解耦。

CLASP architecture — **图2：CLASP 架构。**
左：随机视频预测模型（一个时间步）。训练时，推断网络（MLPinfer, CNNe）从当前帧与前一帧估计隐变量 z；测试时 z 从先验 N(0,I) 采样。生成网络（LSTM, CNNd）将 z 与 xt−1 解码为下一帧预测。
右：可组合性训练。隐变量 z 两两拼接后经过 MLPcomp 得到轨迹表征 ν，再通过同一生成网络解码并与实际图像对比。

1. 最小性（Minimality）via Information Bottleneck

为使 z 仅捕捉动态信息而尽量丢弃静态内容，作者采用 variational Information Bottleneck (VIB) 目标函数：

max I((z_t, x_t−1), x_t) − β_z I(z_t, x_t−1:t)

视频预测目标为标准 VAE 损失加权版本（β-VAE 风格）：最大化重建质量的同时，最小化 z 与输入帧之间的互信息。β_z 越大，z 的信息量越少，越趋于"最小化"。

2. 可组合性（Composability）via 轨迹表征

为学到可组合的动作表征，CLASP 引入轨迹随机变量 ν，它由若干连续的 z 组合而得（通过 MLPcomp）。同样用 IB 目标训练：ν 应足以预测对应的末帧图像，同时对单个 z 的信息量最小化。总目标为两个 loss 之和：

L^total = L^comp + L^pred

可组合性隐式地促进了解耦：因为 ν 无法看到中间帧的静态内容，仅当每个 z 已与静态内容解耦时，组合才得以高效进行。

3. 控制映射接地（Grounding the Control Mapping）

训练完视频预测模型后，只需少量带动作标注序列（如 100~10000 条）训练两个轻量 MLP（MLPlat 和 MLPact），即可在 z 与真实控制指令 u 之间建立可逆的双射映射。这一步不反向传播至视频预测模型，数据量需求极低。

03 实验

实验在两个数据集上进行：（1）reacher 数据集——模拟单自由度旋转机械臂（OpenAI Roboschool），包含 100,000 训练序列、4,000 测试序列；（2）BAIR robot pushing 数据集（Ebert et al. 2017）——44,374 训练序列，真实世界机械臂推物。基线包括 Denton & Fergus (2018)（无 composability 目标），以及完全监督方法 Oh et al. (2015)（reacher）和 Finn & Levine (2017)（BAIR）。

动作条件视频预测（Action-conditioned Video Prediction）

方法	Reacher 绝对角度误差 [deg]	BAIR 末端位置误差 [px]
随机猜测 (Start State)	90.1 ± 51.8	26.6 ± 21.5
Denton & Fergus (2018)	22.6 ± 17.7	3.6 ± 4.0
CLASP（本文）	2.9 ± 2.1	3.0 ± 2.1
Supervised（全监督上界）	2.6 ± 1.8	2.0 ± 1.3

CLASP 在 reacher 上达到与全监督方法几乎相同的性能，而 baseline 性能接近随机。在 BAIR 上，CLASP 较 baseline 将与监督方法的差距缩小约 30%。

视觉伺服规划（Visual Servoing）

方法	Reacher 终点距离 [deg]
Start Position	97.8 ± 23.7
Random	27.0 ± 26.8
Denton & Fergus (2018)	14.1 ± 10.7
CLASP（本文）	1.6 ± 1.0
Agrawal et al. (2016)（全监督）	2.0 ± 1.5
Oh et al. (2015)（全监督）	1.8 ± 1.5
CLASP（变化背景）	3.0 ± 2.2
CLASP（变化机器人外形）	2.8 ± 2.9

规划算法采用 Model Predictive Control (MPC) + Cross Entropy Method (CEM)，在隐空间 z 中规划轨迹，用 VGG16 余弦距离衡量与目标帧的差异。CLASP 在视觉伺服上超越全监督方法，达到最优性能。

Visual servoing results — **图3：视觉伺服结果。**
左：每一行为一个时间步重新规划的轨迹；首帧为当前状态，后续帧为模型以最低代价预测的路径，目标状态（机械臂指向左上）叠加显示在每张图上。
右：数据效率——以不同数量的带标注训练序列衡量最终伺服误差；CLASP 在极少标注下即超过监督基线。

轨迹迁移（Trajectory Transplantation）

数据效率与鲁棒性

CLASP 用无标注数据预训练后，仅需 100~1000 条带动作标注序列即可达到与 10,000 条全监督数据相当的规划精度。在变化背景（CIFAR-10 随机图像）和变化机器人外形（72 种宽度×长度组合）条件下，CLASP 性能基本保持不变，说明学到的表征对视觉特征变化具有鲁棒性。

04 局限性

说明：论文未设独立局限性章节；以下各点结合论文实验范围与方法设计推断，已标注来源。

实验局限于低维度 / 低分辨率设置（推断自设计）

所有实验使用 64×64 像素图像，隐变量维度 dim(z) = dim(ν) = 10，模拟的 reacher 仅有一个自由度。方法在更复杂的操作场景（多自由度、高分辨率、遮挡）下的泛化性尚未验证。

BAIR 数据集上与监督方法仍存在差距（论文明确指出）

论文在 BAIR 末端位置误差上：CLASP 为 3.0 ± 2.1 px，全监督方法为 2.0 ± 1.3 px。作者承认："our model performs better than the baseline … reducing the difference … by 30 %"，但并未完全闭合差距，并指出 baseline 仍产生模糊与鬼影伪影。

需要场景动态主要由被观察智能体主导（推断自方法设计）

CLASP 依赖"视频中变化最大来源是智能体自身动作"的假设。若场景中有大量无关运动（行人、风吹树叶等），隐变量可能无法有效分离动作信息，使 composability 损失失效。

β 超参数选取需要人工调参（论文明确指出）

论文指出："the problem of determining β is not unique to this work and occurs in all stochastic video prediction methods, as well as VIB and β-VAE"。β_z 和 β_ν 需设为"样本仍能生成高质量图像的最大值"，缺乏自动化准则。