VLA 综述：视觉-语言-动作模型的概念、进展、应用与挑战

01 动机

传统机器人系统将视觉、语言和动作视为独立子系统分别处理。"机器人能够在视觉上识别物体、理解文本指令或执行预定义动作，但将三者全部整合仍然极具挑战性。"VLA 模型正是为打破这一割裂局面而生—— 在单一计算框架内实现感知、语言理解与具身动作的统一。

"Integrated perception, language, and action enable adaptive, generalizable embodied intelligence." —— 论文核心主张

从独立模态到统一VLA模型的演化 — **图1：从独立模态到统一 VLA 模型的演化。** 传统系统中视觉、语言与动作相互割裂；VLA 框架将三者整合为统一的感知-推理-执行闭环，实现"自适应、可泛化的具身智能"。

80+综述覆盖 VLA 模型数量（近三年）

45时间轴标注模型（2022–2025）

4演化阶段（基础 → 专化 → 泛化 → 跨形态）

9未来研究方向（路线图）

为何需要 VLA？

大型视觉-语言模型（VLM）的崛起使"将感知、理解与行动统一于单一框架"成为可能。然而，从 VLM 到 VLA 并非简单扩展：机器人需要实时闭环控制、跨形态泛化 和安全对齐，而这些在纯语言/图像生成场景中几乎不存在。本综述正是系统梳理这一演化路径，识别已解决与尚待攻克的问题。

02 方法体系

本综述将 VLA 研究组织为五大主题支柱：概念基础、架构进展、应用领域、技术挑战与未来方向。其核心是对 VLA 系统统一框架的解析——多模态输入经 tokenization 后融合，再通过自回归解码输出动作序列。

统一 Tokenization 框架

VLA 通过三类 token 统一三种模态：

Prefix tokens（前缀 token）：编码环境上下文与指令，例如 ViT 提取 400 个视觉 token。
State tokens（状态 token）：表征机器人配置与传感器数据，例如 64 维状态编码。
Action tokens（动作 token）：自回归生成电机指令序列，例如预测 50 个动作 token 的控制序列。

Tokenization与表征流程 — **图2：Tokenization 与表征流程。** 视觉编码器将图像转化为 token，语言编码器处理指令，二者经 transformer 融合后自回归预测动作 token，最终驱动执行器。

三类主要架构范式

Early Fusion（早期融合）

视觉-语言表征在策略模块前完成融合。代表模型 EF-VLA 在组合操作任务上展现出 "20% 性能提升"。优势在于端到端联合优化，劣势是跨模态对齐难度大。

Dual-System（双系统架构）

NVIDIA GR00T N1 将快速 System 1（扩散策略，10ms 延迟）与慢速 System 2（LLM 规划器）结合，实现"比单体模型高出 17% 的成功率"和"28% 的碰撞失败率下降"。

Self-Correcting（自校正框架）

SC-VLA 集成失败检测机制，"将任务失败率降低 35%"。通过闭环反馈在执行过程中动态修正动作，提升鲁棒性。

Parameter-Efficient（参数高效方法）

LoRA adapter 等方法"将 GPU 训练时间减少 70%"，使大规模 VLA 适配特定领域无需全参数微调，显著降低计算成本。

端到端VLA流水线 — **图3：端到端 VLA 流水线。** 从多模态输入采集、tokenization、跨模态融合、自回归解码，到闭环执行与实时反馈，完整展示 VLA 系统的推理-执行闭环。

应用领域覆盖

综述覆盖六大应用场景：人形机器人（全身操控与运动）、自动驾驶 （端到端驾驶、协同调度）、工业机器人（精密装配、灵巧操作）、 医疗机器人（精准干预、辅助护理）、精准农业（作物监测、选择性采摘）和 GUI 代理（桌面自动化，如 ShowUI）。

03 模型进展与关键数据

综述系统梳理 2022–2025 年 45 个代表性 VLA 模型，划分为四个演化阶段，并汇总各模型的架构特点与实测指标。

2022-2025年VLA模型演化时间轴 — **图4：2022–2025 年 VLA 模型演化时间轴（45 个模型）。** 四个阶段依次为：基础整合（2022–2023）、专化与具身推理（2024）、泛化与安全部署（2025）、跨形态与高级整合（新兴）。

代表性模型对比

模型	参数量	训练数据规模	关键指标 / 特点
RT-1	—	大规模演示数据	97% 操作成功率（模仿学习）
RT-2	55B	互联网规模	新物体性能提升 63%（DCT/BPE 动作 tokenization）
Octo	93M	80 万机器人演示（OpenX-Embodiment）	扩散解码器，多任务泛化
OpenVLA	7B	97 万真实机器人演示	优于 RT-2-X（55B）；DINOv2 + SigLIP 双编码器
GR00T N1	—	—	双系统架构；System 1 延迟 10ms；碰撞失败↓28%
SC-VLA	—	—	自校正；任务失败率↓35%
EF-VLA	—	—	早期融合；组合操作任务性能↑20%

四个演化阶段

阶段一：基础整合（2022–2023）

建立基本视觉运动协调能力。代表模型：CLIPort、RT-1、VIMA、Diffusion Policy。早期系统结合预训练视觉-语言表征与任务条件策略，但缺乏组合推理与可供性 grounding。

阶段二：专化与具身推理（2024）

引入领域特定归纳偏置：检索增强训练、3D 场景图集成、可逆架构、物理感知 attention 与多传感器融合。代表模型：Octo、OpenVLA、VoxPoser。

阶段三：泛化与安全部署（2025）

优先考虑鲁棒性与人类对齐：形式化验证（SafeVLA）、全身控制（Humanoid-VLA）、嵌入式部署优化（EdgeVLA、TinyVLA）和神经符号因果推理。

阶段四：跨形态与高级整合（新兴）

解决仿真到现实迁移、可供性链式规划、人机接口和跨形态技能表征，实现跨不同机器人平台的知识迁移。代表方向：Pi-0、HybridVLA。

OpenVLA 的效率启示

OpenVLA 以 7B 参数、97 万真实机器人演示训练，性能超越 RT-2-X（55B 参数），表明开源、参数高效的 VLA 在充分数据下可媲美甚至超越大规模闭源模型—— 这对社区推进可复现研究具有重要意义。

04 局限性与挑战

Note：以下挑战均为论文明确陈述（stated），部分附有作者提出的方向性建议。

实时推理约束（Real-Time Inference Constraints）

VLA 模型在动态环境中须在严格延迟约束下运行。GR00T N1 的 System 1 已实现 10ms 延迟，但更复杂的推理路径仍面临显著的计算瓶颈，限制了在边缘设备和高速场景（如无人机竞速）的部署。

多模态动作表征（Multimodal Action Representation）

将不同机器人形态的多样动作空间统一为单一表征仍是开放问题。跨形态知识迁移需要"形态无关技能表征"，当前方法在形态差异显著时泛化能力有限。

泛化缺口（Generalization Gaps）

"数据集偏差、grounding 以及对未见任务的泛化"仍是持续障碍。训练分布与真实部署场景之间的分布差距导致性能骤降，需要"跨形态迁移与形态无关技能表征"来弥合。

数据效率瓶颈（Data Efficiency）

训练高质量 VLA 同时需要大规模互联网数据和领域特定机器人演示数据，后者的采集成本极高（Octo 使用 80 万演示，OpenVLA 使用 97 万演示）。如何以更少的真实机器人数据达到同等性能是核心挑战之一。

系统集成复杂度（System Integration Complexity）

多模态处理的"高计算需求"和与现有机器人硬件的集成挑战构成部署壁垒，尤其对于边缘设备。LoRA adapter 等方法将 GPU 训练时间减少 70%，但完整部署流水线的集成复杂度依然较高。

安全与伦理对齐（Safety and Ethical Concerns）

论文强调安全、伦理与以人为中心的对齐必须作为"一等设计目标"，而非事后补丁。对抗鲁棒性、训练数据偏差传播和关键应用场景下的不可预期行为，是尚未充分解决的核心安全隐患。