机器人 · Robotics · arXiv 2026

VLA-JEPA

Enhancing Vision-Language-Action Model with Latent World Model
Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen  ·  USTC · Zhongguancun Academy · SJTU · Tsinghua · EIT · UCAS · Nankai

VLA-JEPA 提出了一种基于 JEPA(Joint Embedding Predictive Architecture)的潜空间世界模型预训练框架,专为视觉-语言-动作(VLA)策略设计。通过在隐空间而非像素空间中预测未来帧的表示,模型能够学到对相机运动、光照变化和背景干扰均鲁棒的动态抽象,在 LIBERO、SimplerEnv 及真实机器人实验上均达到业界领先性能。

arXiv 2602.10098 提交 2026-02-10(v2: 2026-02-14) LIBERO avg 97.2% 📄 arXiv:2602.10098
VLA JEPA latent world model 机器人操作 预训练 flow matching 视觉语言动作模型 迁移鲁棒性

01 动机 Motivation

现有基于潜在动作预测的 VLA 预训练方法(如 LAPA、UniVLA)将优化目标锁定在像素级变化上,而非真正与控制相关的状态转移。这使得模型对相机抖动、背景变化等无关干扰极为敏感,难以在真实环境中稳健泛化。

"For embodied control, we want a value-bearing latent state that discards nuisance appearance while preserving factors governing state evolution."
VLA-JEPA 整体概览
图1:VLA-JEPA 整体框架概览。该系统在模拟与真实场景中均表现出色,通过隐空间世界模型预训练赋予策略对环境扰动的鲁棒性。

作者归纳了现有隐动作预训练的四类核心失效模式:

97.2%LIBERO 平均成功率
65.2%SimplerEnv Google Robot avg
79.5%LIBERO-Plus 鲁棒性 avg
2-stage简化预训练流程

02 方法 Method

VLA-JEPA 采用两阶段流程:先以 JEPA 目标进行世界模型预训练,再对 action head 进行微调。骨干网络使用 Qwen3-VL,视频编码采用 V-JEPA2 encoder,动作生成采用 flow matching。整体设计无需像素重建,无需复杂的多阶段解码器。

VLA-JEPA 模型结构
图1(详细):VLA-JEPA 模型架构。VLM 处理当前观测,通过可学习 token <latent_i> 和 <action> 生成世界状态预测与动作。Target encoder 编码未来帧,仅供损失计算,不参与前向推理。

隐空间无泄漏状态预测(Leakage-Free State Prediction)

核心创新:Target encoder 处理未来帧,而 student 网络(VLM)仅能看到当前观测。模型在隐空间对齐预测表示与目标表示:
ℒ_WM = Σ(k=1 to T) 𝔼[||ŝ_tk − s_tk||²]
其中 ŝ_tk 为预测的世界状态,s_tk 为 target encoder 产生的目标表示。通过在隐空间而非像素空间预测,模型天然过滤了像素级的无关变化(光照、背景、相机运动),专注于语义状态转移。

Flow-Matching 动作头

动作生成采用 flow matching 对连续轨迹分布建模:
ℒ_FM = 𝔼[||v_θ(a_t,t|z_a) − (a₀:H − ε)||₂²]
综合训练目标为:ℒ = ℒ_FM + β·ℒ_WM,β 为超参数权衡世界模型损失与动作预测损失。

跨域预训练示意
图2:VLA-JEPA 支持跨域联合训练。人类视频数据仅使用隐空间对齐损失(alignment loss),机器人数据同时使用对齐损失与动作预测损失,在同一框架内无缝整合。

跨域人类视频迁移

框架支持无缝整合无动作标注的人类视频与有标注机器人数据。人类视频只需 world modeling loss,不需要动作标签。实验表明,人类视频主要强化"模型已有技能的鲁棒性和稳定性",而非引入全新的动作动力学。

03 实验 Experiments

在 LIBERO(4个任务套件)、LIBERO-Plus(7种扰动维度)、SimplerEnv(Google Robot + WidowX)和真实 Franka 机器人上进行评估,与 OpenVLA-OFT、π₀、π₀.₅、UniVLA、GR00T N1 等方法对比。

LIBERO Benchmark(Table 1)

方法SpatialObjectGoalLIBERO-10Avg
LAPA73.874.658.855.465.7
UniVLA96.596.895.692.095.2
OpenVLA-OFT97.698.497.994.597.1
π₀96.898.895.885.294.2
π₀-Fast96.496.888.660.285.5
π₀.₅98.898.298.092.496.9
GR00T N194.497.693.090.693.9
WorldVLA87.696.283.460.081.8
VLA-JEPA96.299.697.295.897.2
VLA-JEPA w/o human videos94.899.695.894.096.1

LIBERO-Plus 鲁棒性评估(Table 3)

LIBERO-Plus 在 7 个扰动维度(相机、机器人、语言、光照、背景、噪声、布局)上评估策略鲁棒性。VLA-JEPA 在 7 项中 5 项最优:

方法CameraRobotLanguageLightBackgroundNoiseLayoutAvg
UniVLA1.846.269.669.081.021.231.942.9
OpenVLA-OFT56.431.979.588.793.375.874.269.6
π₀13.86.058.885.081.479.068.953.6
π₀-Fast65.121.661.073.273.274.468.861.6
WorldVLA0.127.941.643.717.110.938.025.0
VLA-JEPA63.367.185.495.693.666.385.179.5

SimplerEnv Benchmark(Table 2)

Google Robot
方法PickMoveDrawerPlaceAvg
RoboVLMs77.361.743.524.151.7
villa-x81.755.438.44.244.9
GR00T N10.71.92.90.01.4
VLA-JEPA88.364.151.349.165.2
WidowX Robot
方法SpoonCarrotBlockEggplantAvg
LAPA70.845.854.258.357.3
UniVLA42.7
OpenVLA-OFT34.230.030.072.541.8
VLA-JEPA75.070.812.570.857.3
真实机器人实验结果
图4:真实世界 Franka 机器人实验结果,对比分布内任务、任务分布外(Task OOD)和布局随机化(Layout OOD)三种场景。VLA-JEPA 在分布内表现最优,在布局随机化设置中同样表现最佳;注意力可视化显示模型更精准地关注机械臂和目标物体。

消融实验(Ablations)

视频时间窗口(video horizon)消融(Table 4):T=4 帧时信息不足(avg 94.8%),T=16 帧时引入冗余信息(avg 95.5%),T=8 帧取得最优(avg 96.1%)。注意力可视化(Figure 6)显示:LAPA 呈现"excessively dense visual information",UniVLA 过度关注背景元素,而 VLA-JEPA "focus[ed] more precisely on the operation, for instance, the robotic arm, the hand, and the objects"。

注意力权重可视化
图6:latent action token 对 image token 注意力权重矩阵可视化。左:LAPA 注意力分散;中:UniVLA 过度关注背景;右:VLA-JEPA 精准聚焦机械臂与操作目标。
人类视频比例影响
图5:人类视频数据在预训练中的占比对 LIBERO-Plus 各扰动维度成功率的影响。结论:人类视频主要增强模型在干扰场景下的鲁棒性,而非引入新的操作技能;随比例增大,鲁棒性指标持续提升。

04 局限性 Limitations

注:论文未设专门的 Limitations 章节。以下内容部分为作者在实验讨论中明确指出(stated),部分为从设计中推断(inferred)。
泛化能力弱于 π₀.₅(Stated)

论文明确指出:"the generalization capability of VLA-JEPA is less robust than π₀.₅, yet it produces more stable trajectories." 在真实任务 OOD 场景中,π₀.₅ 能更准确地跟随指令定位目标,而 VLA-JEPA "is prone to grasping objects that do not align with the command",存在指令遵循精度不足的问题。

人类视频未能引入新技能(Stated)

实验分析显示,人类视频数据主要增强已有技能的鲁棒性,"而非教会模型新的操作动力学"。如何让大规模人类视频真正迁移新的操作能力,仍是开放问题。

相机视角变化的适应能力有限(Inferred)

LIBERO-Plus 的 Camera 扰动维度上,VLA-JEPA(63.3%)优于 π₀(13.8%)但仍落后于 π₀-Fast(65.1%),表明对剧烈相机运动的鲁棒性仍有提升空间。这是从 Table 3 数据推断得出,并非作者明确声明。

依赖大型 VLM 骨干(Inferred)

方法基于 Qwen3-VL + V-JEPA2 encoder,推理成本较高。论文未讨论模型压缩或小模型迁移方案。轻量化部署能力尚未验证。