arXiv 2026 · FAIR at Meta

Learning Latent Action World Models In The Wild

无动作标注,直接从真实世界视频中学习潜在动作空间
Quentin Garrido · Tushar Nagarajan · Basile Terver · Nicolas Ballas · Yann LeCun · Michael Rabbat  |  FAIR at Meta, Inria, NYU

世界模型需要动作标注才能预测未来,但大规模视频数据几乎没有标注。本文研究如何在多样化的真实世界(in-the-wild)视频上训练潜在动作世界模型(LAM),无需任何动作标签。研究发现,连续且受约束的潜在动作能够有效捕捉复杂动作,而常用的向量量化方法在此场景下表现不佳;同时,通过训练轻量级控制器将已知动作映射到潜在动作,LAM 可用于机器人操作和导航的视觉规划任务。

arXiv:2601.05230 · 2026年1月 37页 · 25图 V-JEPA 2-L 编码器 📄 arXiv:2601.05230 PDF
latent action model world model inverse dynamics model in-the-wild video 视频自监督 连续潜在动作 机器人规划 V-JEPA

01 动机

智能体要在现实世界中推理与规划,必须能够预测动作的后果。现有世界模型大多依赖动作标注——而大规模视频数据几乎没有标签。这催生了潜在动作模型(Latent Action Model, LAM)的研究方向:从视频本身学习动作空间,无需任何显式动作标注。

"To learn a truly general and transferable latent action world model, we argue that we must go beyond these targeted data sources. Sources of natural in-the-wild videos such as HowTo100M or YoutubeTemporal-1B provide a much richer and general learning environment than usually studied."

以往 LAM 工作大多局限于视频游戏、桌面机械臂操作等窄领域,泛化性受限。真实世界视频(in-the-wild)涵盖更丰富的动作分布——摄像机运动、人员进入画面、物体变化等——提供了学习通用动作空间的机会,同时也带来了新挑战:视频多样性导致的环境噪声、不同视频间缺乏统一具身形式(embodiment)。

论文首页与 Figure 1(动作多样性)
Figure 1 — Action diversity. 传统导航或操作数据仅涵盖摄像机/手部等通用动作;真实世界视频(in-the-wild)则包含更广泛的动作分布,例如物体进入画面、人物跳舞等。LAM 需要能够建模这种丰富性。
×2+scene cut 后预测误差倍增,证明 latent action 未编码完整下一帧
128默认潜在动作维度(连续向量)
30kYoutubeTemporal-1B 上的训练迭代次数(默认设置)
≈V-JEPA 2-AC规划性能与有标注基线相当

02 方法

本文采用标准的逆动力学模型(IDM)+ 世界模型(前向模型)联合训练框架,并系统研究如何在真实世界视频上约束潜在动作的信息量,以避免编码冗余噪声。

整体架构

给定视频帧序列 s0:T,首先使用冻结的 V-JEPA 2-L 编码器将每帧映射为抽象表示。IDM gφ 以过去帧与未来帧为输入,输出潜在动作 zt = gφ(st, st+1);世界模型 pψ(实现为 ViT-L + RoPE 位置编码,以 AdaLN-zero 接受 zt 条件)预测下一帧 st+1。两者联合以 L1 预测损失优化:Lt = ‖st+1 − pψ(s0:t, zt)‖1。训练使用 teacher forcing。

LAM 架构图(Figure 2)
Figure 2 — Latent action world model. 世界模型被赋予以潜在变量表示的动作。IDM 从过去帧和未来帧推断潜在动作,再经由正则化约束其信息量(稀疏化、噪声添加或量化)。最终潜在动作通过 AdaLN-zero 条件化至 ViT-L 世界模型。

信息量约束:三种正则化策略

潜在动作的核心挑战是防止 IDM 将未来帧完整编码进 zt("cheating")。本文研究三种策略,各有优劣:

稀疏化(Sparsity)

对潜在动作施加 L1 正则项,辅以 VCM(Variance-Covariance-Mean)正则化防止模式坍缩。参数 λl1 控制约束强度。优点:可灵活调节容量;缺点:实现相对复杂。

噪声添加(Noise / VAE-like)

类似 VAE 的 KL 散度正则:L(zt) = −β DKL(q(zt|st, st+1) ‖ N(0,1))。通过目标标准差添加噪声、目标均值降低 zt 范数。β 参数调节信息容量。

向量量化(Discretization)

使用向量量化(VQ)将连续向量离散化为 codebook 编码,与 UniVLA 相同的量化方案。这是 Genie、LAPA、UniVLA 等主流方法的选择,本文将其作为对照基线。

控制器(Controller)

为将 LAM 用于规划,训练一个轻量级控制器,将已知动作映射到潜在动作。仅用动作时采用 MLP;结合过去表示时采用基于 cross-attention 的 adapter,以处理潜在动作与相机位置相关的问题。

03 实验

所有模型在 YoutubeTemporal-1B 上训练(16帧片段,4fps,batch size 1024,30k 迭代),评测涵盖:IDM 预测误差(LPIPS)、未来帧泄漏(scene cut)、动作迁移(cycle consistency)、具身特性分析,以及下游规划性能(DROID 机械臂操作 / RECON 导航)。

正则化方式比较

不同正则化方式的预测质量(Figure 3)
Figure 3 — Sample predictions using the IDM. 稀疏(Sparse)和噪声(Noisy)潜在动作均能捕捉"一个人走进场景"这一复杂动作;而离散(Discrete/VQ)方式仅能呈现模糊的移动团块,无法精确还原细节。这直接说明向量量化在真实世界视频的复杂性面前能力受限。

预测误差与信息容量

稀疏和噪声潜在动作通过调节超参数(λl1 或 β),可在无约束连续动作(最低误差)与纯确定性世界模型(最高误差)之间灵活权衡,形成连续的容量谱系。而向量量化方法难以提升容量,始终靠近确定性基线,"the vector quantization based approach struggles to scale its capacity and remains very close to the deterministic baseline."

未来帧泄漏(Future Leakage)

正则化方式容量无场景切换(LPIPS)有场景切换(LPIPS)倍率
SparseLow0.280.66×2.3
SparseHigh0.200.50×2.4
NoisyLow0.330.69×2.1
NoisyHigh0.210.54×2.5
DiscreteLow0.340.69×2.0
DiscreteHigh0.290.68×2.3

所有模型在场景切换时预测误差均翻倍以上,表明没有模型通过编码整个未来帧来"作弊"。数据集本身的复杂性使此类捷径难以习得。

动作迁移(Cycle Consistency)

在 Kinetics(人类活动视频)和 RECON(导航)上,将视频 A 的潜在动作迁移至视频 B 再反推,cycle consistency 误差增幅极小(约 ×1.03 ~ ×1.34),证明潜在动作具有跨视频迁移性,且此迁移并非来自未来帧泄漏。

定性分析(Figure 7/8):可将"一人向左行走"的动作迁移至"飞行球",球随即向左运动;还能仅对画面中空间位置最近的人施加动作,体现出空间局部性——"due to a lack of common embodiment in natural videos, the model learns generic actions that are applied relative to the camera."

下游规划性能

通过训练控制器,LAM 可用于 DROID(Franka Emika Panda 机械臂)和 RECON(户外导航)上的视觉规划任务,采用 CEM 在 H=3 步规划。关键结论:

规模化实验

规模化实验(Figure 12)
Figure 12 — Scaling trends. 在模型规模(Large→Giant)、训练时长(30k→120k 步)和数据量三个维度上扩展均能提升 IDM 自然视频预测质量(上行);规划性能方面,训练时长的提升最为显著,模型规模对噪声潜在动作有帮助,而数据量的影响不显著——"these results would suggest that while scaling can improve the quality of a latent action world model…this may not always be visible in downstream tasks that mainly evaluate simple actions."

04 局限性

Note: 以下局限性均由作者在论文"Limitations and future work"节明确阐述。
静态信息约束系数(Variable latent information content)

本文中潜在动作的信息约束系数(如 λl1、β)在训练期间固定不变。然而不同视频中动作复杂程度差异很大,有些片段甚至是确定性的。未来工作应根据视频复杂度动态调整约束,实现更好校准的潜在动作,尽管这可能增加潜在动作空间的复杂性。

潜在动作空间中的采样与规划(Sampling and planning in latent action space)

本文主要研究将已知动作映射到潜在动作(控制器方案),而非直接在潜在动作空间内采样规划。作者承认"most of the work is ahead for high dimensional structured latent actions",直接利用潜在动作进行规划(如 Rybkin et al., 2019 的方法)仍是开放问题。

冻结表示限制单阶段训练(Shaping representations with single stage training)

世界模型训练在冻结的 V-JEPA 2 表示之上进行,而该表示空间并非针对预测设计。这可能制约逆动力学模型训练质量及预测精度。若能将潜在动作引入 V-JEPA 2 预训练(单阶段编码器/世界模型联合训练),可能带来显著提升——作者视之为"an exciting direction for future work."

规划性能与视频生成质量不相关(inferred)

实验发现,unrolling 视觉质量(LPIPS)与规划性能(Δxyz / RPE)之间的相关性较弱——规划最好的模型往往并非视频生成最清晰的模型。这一"common challenge in the world model literature"意味着评估指标的选择对 LAM 研究结论至关重要。