Green-VLA：面向通用机器人的分阶段视觉-语言-动作模型

01 动机

当前 VLA 研究过于依赖简单的数据扩展，而忽视了真实部署中的根本障碍：数据异构性、数据质量参差不齐，以及 behavior cloning 的内在局限。

"robotic datasets are inherently heterogeneous in terms of observations, action spaces, and sampling rates"
——数据层面的异构使得跨机器人泛化极为困难。

Green-VLA 整体架构图 — **图1：Green-VLA 整体架构。** 多模态视觉-语言模型将指令、相机视角与本体感知编码为 token，输入 flow-matching 动作专家。高层任务规划器将用户目标分解为子任务，并利用 episode 结束检测、OOD 检测及基于 JPM 的精确目标点引导信号，实现跨机器人本体的安全、指令忠实执行。

3,000+小时演示数据 (R0 训练)

83.1%ALOHA 双臂清理首项成功率

80.5%WidowX 拣选成功率 (R2)

5B参数规模 (Qwen3-VL-4B backbone)

核心问题诊断

问题一：数据质量

真实机器人数据中大量轨迹存在抖动、模糊帧、执行不一致及场景多样性不足等问题，导致直接扩展数据量收益递减。

问题二：Behavior Cloning 的瓶颈

"the predominant training paradigm remains behavior cloning (BC)…this approach quickly saturates and fails to align policies to long-horizon objectives."

问题三：异构动作空间

不同机器人本体（人形、移动操作臂、固定臂）具有不同的动作维度与语义，简单 zero-padding 会"destroys positive transfer"。

核心主张

Green-VLA 的方案是"beyond data scaling by emphasizing quality alignment, action unification, and reinforcement learning refinement"。

02 方法

Green-VLA 由五个递进训练阶段、统一动作空间设计、DataQA 数据质量管线、时序对齐、OOD 检测，以及 JPM 精确目标引导等核心组件构成。

分阶段训练流程 — **图2：Green-VLA 分阶段训练策略。** 机器人专属训练阶段依次利用 VQA 与机器人数据，支持新本体适配与专化、空间推理、任务泛化、灵巧操控和失败恢复。

五阶段课程式训练

L0基础 VLM
语言-视觉预训练

L1物理世界理解
网络数据预训练

R0通用机器人
预训练

R1本体专属
监督微调 (SFT)

R2强化学习
策略对齐

统一动作空间 (Unified Action Space)

Green-VLA 定义统一动作空间 𝒜_u ⊂ ℝ⁶⁴，使每个索引范围在所有机器人上具有一致的物理语义，避免零填充破坏迁移学习。掩码 BC 目标函数为：

ℒ_uni(θ) = 𝔼[‖m_e ⊙ (π_θ(x_t^e, c_e) − Φ_e(a_t^e))‖²₂]

其中 m_e 标记有效 slot，消除无效维度上的虚假梯度。动态本体提示（dynamic embodiment prompting）将机器人结构信息（手臂数、手部类型、关节/笛卡尔空间、移动/固定等）编码为条件输入。

数据管线概览 — **图5：DataQA 数据管线。** 融合机器人端遥操作、云端数据核验、开源数据集挖掘与模型训练的迭代闭环，支持基于 RL 微调和真实机器人部署反馈的持续迭代。

DataQA 数据质量管线

通过四项质量指标对原始轨迹进行自动筛选：

Jitter (J)：抖动分数，衡量运动不连续性
Sharpness (S)：基于 Laplacian 的图像清晰度估计
Diversity (D)：DINOv3 特征在时序上的方差（场景多样性）
State variance (σ²)：机器人状态协方差的 Frobenius 范数

时序尺度条件化

使用基于光流幅值的重采样对轨迹进行速度归一化，并通过速度因子 v∈[0,1] 进行 RMS 风格调制：

h̃_t = RMSNorm(h_t), ĥ_t = γ(v)h̃_t + β(v)

使同一模型能同时表征精细操控和较快粗动作。

JPM 精确目标引导 — **图10：JPM（Joint Prediction Module）精确目标引导。** 首先在 2D 图像中定位可供性点，然后通过摄像头几何将其提升到 3D 空间，以初始化 Green-VLA 的目标引导。适用于视觉密集场景下的精细物体区分。

OOD 检测与修正

使用在训练集机器人状态上拟合的高斯混合模型（GMM）：p_train(s) = ∑_k ϕ_k 𝒩(s|μ_k, Σ_k)，当 p_train(s) 低于阈值 τ_ood 时，将预测动作修正回训练分布方向。

R2：强化学习对齐

采用两种互补的 RL 方法：

轨迹优化（Native Fine-tuning）：使用 Implicit Q-Learning（IQL）期望损失，迭代地以 Q 函数梯度精炼轨迹：a ← a + η∇_aQ(s,a)/‖∇_aQ(s,a)‖
源分布优化（PARL 风格）：训练独立 actor 采样能改善 flow-matching 策略的噪声，生成的动作受约束靠近训练集分布。

03 实验

实验涵盖真实机器人与仿真环境多个 benchmark，对比 π0、GR00T N1、WALL-OSS、AgiBot GO-1 等多项基线，验证了分阶段训练和 RL 对齐的有效性。

ALOHA 双臂桌面清理（CoBot Magic）

ALOHA 实验场景 — **图9：ALOHA 实验设置。** 测试"拾取胶带"、"拾取螺丝刀"、"拾取钳子"和桌面清理等任务场景。Green-VLA 在所有物品类别上均大幅超越竞争基线。

方法	Tape	Screwdrivers	Pliers	First Item SR	AVG Time
π0	46.3%	29.7%	31.8%	35.6%	2m59s
GR00T N1	38.9%	35.4%	29.5%	33.2%	>5m
WALL-OSS	27.4%	14.2%	27.3%	12.1%	>5m
AgiBot GO-1	57.8%	48.6%	33.2%	38.4%	3m57s
Green-VLA (R0)	83.1%	52.1%	63.7%	69.5%	1m35s

SimplerEnv 仿真基准

在 Google Robot（Visual Matching 任务）和 WidowX 两个仿真设置下与多个基线对比：

Google Robot (Visual Matching)

任务	Green-VLA R1 (Qwen3)
Drawer	64.8%
Move Near	75.8%
Pick Coke	85.7%
Apple	81.5%
Average	77.0%

WidowX (R1 vs R2)

任务	R1 Pick	R2 Pick	R2 Task SR
Spoon	—	—	79.2%
Eggplant	—	—	91.7%
Carrot	—	—	62.5%
Average	89.6%	94.6%	80.5%

电商货架拣选（JPM 消融）

E-commerce 货架拣选结果 — **图11：电商货架拣选 Top-1 成功率（%）。** 对比有/无 JPM 引导时 Green-VLA 在域内粗粒度（品牌/类别）、域内 SKU（精确变体）和域外（未见 SKU/包装）三个场景下的表现。Higher is better。

配置	ID-Coarse（域内粗粒度）	ID-SKU（域内精细）	OOD（域外）
Green-VLA（无 JPM）	~45%	~35%	~20%
Green-VLA（有 JPM）	~75%	~62%	~48%

R2 RL 对齐的增益

**图4：R0 阶段数据集采样分布。** 左：各数据集采样率；右：每数据集样本帧数。语料库包含大规模开放数据集（AgibotWorld、DROID、Galaxea 等）与内部采集的人形及灵巧手数据。

在 CALVIN ABC→D 基准上，R2 RL 对齐在长程一致性和组合任务成功率上取得实质性改善，优于 π0 和 Flower 基线。WidowX 拣选成功率从 R1 的 89.6% 提升至 R2 的 94.6%（Pick Success），任务成功率从 72.9% 提升至 80.5%。

人形机器人任务

在人形机器人（Green Robot）的指令条件操控任务上，系统支持：拾取、放置、递交物品给用户、水果分拣，以及完整桌面清理序列，域内平均成功率约 85%，域外约 78%。高层任务规划器可将"将苹果和橙子分拣到篮子中"等复杂指令自动分解为子任务并逐一执行。

04 局限性

说明： 论文未设独立的 Limitations 章节。以下第1条为作者在正文中明确指出（stated），其余各条为从系统设计中推断（inferred）。

性能依赖 retargeting 保真度与数据集覆盖度（stated）

"Green-VLA's performance still depends on retargeting fidelity, residual dataset bias, and adequate coverage of dexterous skills." 当数据集偏差较大或目标技能覆盖不足时，泛化能力下降。

需要扩展多语言指令跟随（stated）

作者明确指出未来工作需"extending multilingual instruction following"，当前版本对非英语指令的支持有限。

快速推理与实时控制的耦合尚待加强（stated）

论文提到需要"strengthening the coupling between fast reasoning and real-time control"，暗示当前 VLM 推理速度在高频控制场景中可能成为瓶颈。

RL 微调依赖离线数据与奖励信号质量（inferred）

R2 阶段采用离线 IQL 和轨迹优化，其效果受限于训练集的覆盖范围和 Q 函数估计的准确性。论文指出需"integrating online data collection with safety-aware RL to further reduce failure modes"。

JPM 模块依赖相机标定与深度信息（inferred）

JPM 将 2D 可供性点通过摄像头几何提升到 3D，并求解逆运动学。该流程对相机内外参精度和深度估计质量敏感，在无结构/遮挡环境中可能失效。