IEEE TNNLS · Survey · 具身 AI

A Survey on Vision-Language-Action Models for Embodied AI

首篇系统综述 VLA 模型:组件 · 低层控制策略 · 高层任务规划器
Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King  ·  The Chinese University of Hong Kong & Huawei Noah's Ark Lab

本文是首篇专门针对 Vision-Language-Action(VLA)模型的综合综述,系统梳理了从基础组件到完整 VLA 系统的设计空间,覆盖低层控制策略(Transformer、扩散模型、3D 视觉)与高层任务规划器(Monolithic / Modular),并总结了数据集、Benchmark 和未来挑战。

arXiv:2405.14093 IEEE TNNLS 2026 v8 · May 2026 📄 arXiv:2405.14093 PDF
vision-language-action VLA embodied AI 具身智能 robot manipulation diffusion policy task planner large language models 策略学习

01 动机

传统基于强化学习的机器人策略"largely focused on addressing a limited set of tasks within controlled environments",难以泛化到真实复杂场景。随着大型语言模型(LLM)和视觉-语言模型(VLM)的崛起,将语言理解、视觉感知与机器人动作生成统一到同一模型的需求日益迫切——这正是 VLA 模型的核心出发点。

"Embodied AI is widely recognized as a cornerstone of artificial general intelligence (AGI)."
VLA general architecture
图 1:VLA 模型的通用架构。三种代表性动作预测方式(回归、离散化、扩散)被展示为并列路径。VLA 模型以多模态观测(视觉 + 语言指令)为输入,通过不同 action head 输出机器人动作序列。图中虚线框标注了相关组件(预训练视觉表征、世界模型等)。
3研究方向
(组件 / 低层策略 / 任务规划)
50+低层控制策略
系统梳理(Table III)
400MCLIP 训练图文对
(WIT 数据集)
8未来挑战方向
(Section VI)
VLA evolution timeline
图 2(b):从单模态模型到 VLA 模型的演化时间线。2017 年 Transformer 奠基,2021 年 Gato / Decision Transformer 出现,2023 年 RT-2 正式提出"VLA"术语,2024–2026 年 OpenVLA、π₀、RDT 等大参数量 VLA 快速涌现。

02 VLA 分类体系

本综述提出一个层级化分类框架(hierarchical framework),将 VLA 系统分为三大研究方向:① VLA 组件(Components)、② 低层控制策略(Low-Level Control Policies)、③ 高层任务规划器(High-Level Task Planners)。低层策略负责执行具体的动作序列,高层规划器负责把复杂指令分解为可执行子任务。

Hierarchical robot policy
图 4:层级机器人策略示意。"The high-level task planner decomposes the user instruction into subtasks, which are then executed step by step by the low-level control policy." 两层架构使系统具备长时程任务执行能力。

① VLA 组件 (Components)

  • 预训练视觉表征 (PVR):CLIP、R3M、VC-1、Theia
  • 视频表征学习
  • Dynamics Learning:Vi-PRoM、MaskDP
  • World Models:用于策略预测
  • Reasoning 模块
  • Policy Steering(如 RLHF)

② 低层控制策略 (Low-Level Policies)

  • Transformer-based:RT-1、RT-2、Octo
  • Diffusion-based:Diffusion Policy、MDT、RDT-1B
  • 3D Vision:基于点云 / 3D 语义特征
  • Point-based Actions
  • Large VLAs:OpenVLA(7B)、π₀(22B)
  • Motion Planning 集成

③ 高层任务规划器 (Task Planners)

  • Monolithic:PaLM-E、EmbodiedGPT、LEO
  • Modular:工具调用链、代码生成规划
  • 3D-LLM:融合 3D 场景理解
  • 长时程任务分解
  • 多步推理与反馈

预训练视觉表征(PVR)对比

Table I 系统对比了常用 PVR 方法,包括网络类型、预训练目标及适用机器人任务:

方法网络类型预训练目标特点
CLIPViT / ResNet对比学习(图文对齐)400M 图文对,泛化强
R3MResNet-50时序对比 + 语言对齐专为机器人操作设计
VC-1ViT-BMAE + 像素重建像素级细节更优
DINOv2ViT自监督蒸馏强空间特征,无标签
TheiaViT多任务综合综合评测最优

动作预测三大范式

Transformer-based 策略

将动作序列建模为 token 序列(如 RT-1 离散化为 256 bins/维度),利用 causal Transformer 做 next-token prediction。RT-2 进一步将动作 token 与语言 token 混合,直接从 VLM 输出动作。

Diffusion-based 策略

以 Diffusion Policy 为代表,将动作生成建模为去噪过程(DDPM),能够建模多模态动作分布,避免均值回归问题。RDT-1B 扩展至 1.2B 参数并展示出 "zero-shot generalization"。

Embodied AI concepts Venn diagram
图 2(a):具身 AI 核心概念 Venn 图。VLA 模型处于 Vision、Language、Action 三个模态的交叉区域,涵盖感知、理解和行动三个层面,是实现通用机器人智能的关键桥梁。

03 代表性 VLA 系统与资源

综述梳理了 50+ 低层控制策略(Table III)和数十种高层规划器(Table IV),并整合了主流数据集与 Benchmark。以下展示 RT 系列和大型 VLA 的关键里程碑,以及核心挑战。

RT 系列里程碑

方法年份核心创新规模
RT-12022大规模多任务机器人 Transformer~35M 参数
RT-22023首次提出"VLA",将 VLM 输出动作 token55B(PaLI-X)
RT-H2024层级化动作 token(语言 → 子任务 → 动作)
RT-X / RT-2-X2023OXE 跨机器人数据集,"orders of magnitude larger"55B

大参数量 VLA(Large VLAs)

方法参数量特点
OpenVLA7B开源 VLA,基于 LLaMA,支持微调
π₀(pi zero)~22B流匹配(flow matching)动作生成
RDT-1B1.2B扩散 Transformer,"zero-shot generalization"
RoboMambaMamba 架构,推理效率更高
SpatialVLA空间感知增强 VLA

主要 Benchmark 与数据集

综述在 Table V 整理了主流数据集,涵盖真实环境与仿真环境:

未来挑战(Section VI 八大方向)

Safety First

真实部署中的安全约束与 fail-safe 机制

Datasets & Benchmarks

数据稀缺、跨机器人一致性评测

Foundation Models & Generalization

跨域迁移、开放世界泛化

Multimodality

触觉、力觉、声音等多模态融合

Long-Horizon Tasks

复杂序列任务的分解与执行

Real-Time Responsiveness

LVLA 推理延迟在动态环境中的影响

Multiagent Systems

多具身智能体协作与协调

Ethical & Societal Implications

伦理规范与社会影响评估

04 局限性

说明:以下局限性部分为作者在论文中明确陈述(标注"stated"),部分为从综述内容中推断(标注"inferred")。
推理速度瓶颈(stated)

作者明确指出大型 VLA 的"slow inference speed can significantly impact performance in dynamic environments, as changes may occur during inference",需要量化压缩、early-exit 等技术缓解。

离散动作表示的局限(stated)

离散化动作空间会导致"early grasping issues",且对于"pouring water into a cup"等需要额外自由度的任务,SE(2) 动作离散化不足以描述真实操作需求。

数据稀缺与跨具身泛化(stated)

机器人学习领域数据获取成本高,跨不同机器人形态的泛化仍是重大挑战。OXE 等跨机器人数据集是初步尝试,但与语言领域数据规模仍有量级差距。

综述覆盖的时效性(inferred)

VLA 领域发展极快(截至 v8,2026 年 5 月),综述所梳理的方法可能在出版后迅速过时。作者维护的 GitHub 仓库是持续更新的补充资源,但仍难以做到实时追踪。

定量性能对比缺失(inferred)

综述以定性分类为主,缺少统一 Benchmark 上的定量对比表格(成功率、延迟等),使读者难以直接判断各方法的相对优劣。这在一定程度上降低了综述作为选型参考的实用性。