机器人学 · Vision-Language-Action · 2025

Green-VLA:面向通用机器人的分阶段视觉-语言-动作模型

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov 等 (通讯:A. Postnikov)

Green-VLA 提出一套五阶段课程式训练框架,通过统一动作空间与强化学习对齐,将大规模视觉-语言模型转化为可跨机器人本体泛化的操控策略。该系统在 3,000+ 小时演示数据上训练,并在双臂桌面清理、电商货架拣选及人形机器人操控等多项真实任务中达到业界领先水平。

arXiv 2025 ~5B 参数 (Qwen3-VL-4B backbone) 64 维统一动作空间 📄 arXiv:2602.00919 PDF 全文
关键词Vision-Language-ActionVLA课程式训练统一动作空间强化学习对齐behavior cloning机器人泛化flow matching数据质量过滤跨本体迁移

01 动机

当前 VLA 研究过于依赖简单的数据扩展,而忽视了真实部署中的根本障碍:数据异构性、数据质量参差不齐,以及 behavior cloning 的内在局限。

"robotic datasets are inherently heterogeneous in terms of observations, action spaces, and sampling rates"
——数据层面的异构使得跨机器人泛化极为困难。
Green-VLA 整体架构图
图1:Green-VLA 整体架构。 多模态视觉-语言模型将指令、相机视角与本体感知编码为 token,输入 flow-matching 动作专家。高层任务规划器将用户目标分解为子任务,并利用 episode 结束检测、OOD 检测及基于 JPM 的精确目标点引导信号,实现跨机器人本体的安全、指令忠实执行。
3,000+小时演示数据 (R0 训练)
83.1%ALOHA 双臂清理首项成功率
80.5%WidowX 拣选成功率 (R2)
5B参数规模 (Qwen3-VL-4B backbone)

核心问题诊断

问题一:数据质量

真实机器人数据中大量轨迹存在抖动、模糊帧、执行不一致及场景多样性不足等问题,导致直接扩展数据量收益递减。

问题二:Behavior Cloning 的瓶颈

"the predominant training paradigm remains behavior cloning (BC)…this approach quickly saturates and fails to align policies to long-horizon objectives."

问题三:异构动作空间

不同机器人本体(人形、移动操作臂、固定臂)具有不同的动作维度与语义,简单 zero-padding 会"destroys positive transfer"。

核心主张

Green-VLA 的方案是"beyond data scaling by emphasizing quality alignment, action unification, and reinforcement learning refinement"。

02 方法

Green-VLA 由五个递进训练阶段、统一动作空间设计、DataQA 数据质量管线、时序对齐、OOD 检测,以及 JPM 精确目标引导等核心组件构成。

分阶段训练流程
图2:Green-VLA 分阶段训练策略。 机器人专属训练阶段依次利用 VQA 与机器人数据,支持新本体适配与专化、空间推理、任务泛化、灵巧操控和失败恢复。

五阶段课程式训练

L0基础 VLM
语言-视觉预训练
L1物理世界理解
网络数据预训练
R0通用机器人
预训练
R1本体专属
监督微调 (SFT)
R2强化学习
策略对齐

统一动作空间 (Unified Action Space)

Green-VLA 定义统一动作空间 𝒜u ⊂ ℝ64,使每个索引范围在所有机器人上具有一致的物理语义,避免零填充破坏迁移学习。掩码 BC 目标函数为:

uni(θ) = 𝔼[‖me ⊙ (πθ(xte, ce) − Φe(ate))‖²₂]

其中 me 标记有效 slot,消除无效维度上的虚假梯度。动态本体提示(dynamic embodiment prompting)将机器人结构信息(手臂数、手部类型、关节/笛卡尔空间、移动/固定等)编码为条件输入。

数据管线概览
图5:DataQA 数据管线。 融合机器人端遥操作、云端数据核验、开源数据集挖掘与模型训练的迭代闭环,支持基于 RL 微调和真实机器人部署反馈的持续迭代。

DataQA 数据质量管线

通过四项质量指标对原始轨迹进行自动筛选:

时序尺度条件化

使用基于光流幅值的重采样对轨迹进行速度归一化,并通过速度因子 v∈[0,1] 进行 RMS 风格调制:

t = RMSNorm(ht), ĥt = γ(v)h̃t + β(v)

使同一模型能同时表征精细操控和较快粗动作。

JPM 精确目标引导
图10:JPM(Joint Prediction Module)精确目标引导。 首先在 2D 图像中定位可供性点,然后通过摄像头几何将其提升到 3D 空间,以初始化 Green-VLA 的目标引导。适用于视觉密集场景下的精细物体区分。

OOD 检测与修正

使用在训练集机器人状态上拟合的高斯混合模型(GMM):ptrain(s) = ∑k ϕk 𝒩(s|μk, Σk),当 ptrain(s) 低于阈值 τood 时,将预测动作修正回训练分布方向。

R2:强化学习对齐

采用两种互补的 RL 方法:

03 实验

实验涵盖真实机器人与仿真环境多个 benchmark,对比 π0、GR00T N1、WALL-OSS、AgiBot GO-1 等多项基线,验证了分阶段训练和 RL 对齐的有效性。

ALOHA 双臂桌面清理(CoBot Magic)

ALOHA 实验场景
图9:ALOHA 实验设置。 测试"拾取胶带"、"拾取螺丝刀"、"拾取钳子"和桌面清理等任务场景。Green-VLA 在所有物品类别上均大幅超越竞争基线。
方法TapeScrewdriversPliersFirst Item SRAVG Time
π046.3%29.7%31.8%35.6%2m59s
GR00T N138.9%35.4%29.5%33.2%>5m
WALL-OSS27.4%14.2%27.3%12.1%>5m
AgiBot GO-157.8%48.6%33.2%38.4%3m57s
Green-VLA (R0)83.1%52.1%63.7%69.5%1m35s

SimplerEnv 仿真基准

在 Google Robot(Visual Matching 任务)和 WidowX 两个仿真设置下与多个基线对比:

Google Robot (Visual Matching)

任务Green-VLA R1 (Qwen3)
Drawer64.8%
Move Near75.8%
Pick Coke85.7%
Apple81.5%
Average77.0%

WidowX (R1 vs R2)

任务R1 PickR2 PickR2 Task SR
Spoon79.2%
Eggplant91.7%
Carrot62.5%
Average89.6%94.6%80.5%

电商货架拣选(JPM 消融)

E-commerce 货架拣选结果
图11:电商货架拣选 Top-1 成功率(%)。 对比有/无 JPM 引导时 Green-VLA 在域内粗粒度(品牌/类别)、域内 SKU(精确变体)和域外(未见 SKU/包装)三个场景下的表现。Higher is better。
配置ID-Coarse(域内粗粒度)ID-SKU(域内精细)OOD(域外)
Green-VLA(无 JPM)~45%~35%~20%
Green-VLA(有 JPM)~75%~62%~48%

R2 RL 对齐的增益

数据集采样分布
图4:R0 阶段数据集采样分布。 左:各数据集采样率;右:每数据集样本帧数。语料库包含大规模开放数据集(AgibotWorld、DROID、Galaxea 等)与内部采集的人形及灵巧手数据。

在 CALVIN ABC→D 基准上,R2 RL 对齐在长程一致性和组合任务成功率上取得实质性改善,优于 π0 和 Flower 基线。WidowX 拣选成功率从 R1 的 89.6% 提升至 R2 的 94.6%(Pick Success),任务成功率从 72.9% 提升至 80.5%。

人形机器人任务

在人形机器人(Green Robot)的指令条件操控任务上,系统支持:拾取、放置、递交物品给用户、水果分拣,以及完整桌面清理序列,域内平均成功率约 85%,域外约 78%。高层任务规划器可将"将苹果和橙子分拣到篮子中"等复杂指令自动分解为子任务并逐一执行。

04 局限性

说明: 论文未设独立的 Limitations 章节。以下第1条为作者在正文中明确指出(stated),其余各条为从系统设计中推断(inferred)。
性能依赖 retargeting 保真度与数据集覆盖度(stated)

"Green-VLA's performance still depends on retargeting fidelity, residual dataset bias, and adequate coverage of dexterous skills." 当数据集偏差较大或目标技能覆盖不足时,泛化能力下降。

需要扩展多语言指令跟随(stated)

作者明确指出未来工作需"extending multilingual instruction following",当前版本对非英语指令的支持有限。

快速推理与实时控制的耦合尚待加强(stated)

论文提到需要"strengthening the coupling between fast reasoning and real-time control",暗示当前 VLM 推理速度在高频控制场景中可能成为瓶颈。

RL 微调依赖离线数据与奖励信号质量(inferred)

R2 阶段采用离线 IQL 和轨迹优化,其效果受限于训练集的覆盖范围和 Q 函数估计的准确性。论文指出需"integrating online data collection with safety-aware RL to further reduce failure modes"。

JPM 模块依赖相机标定与深度信息(inferred)

JPM 将 2D 可供性点通过摄像头几何提升到 3D,并求解逆运动学。该流程对相机内外参精度和深度估计质量敏感,在无结构/遮挡环境中可能失效。