机器人 · Robotics · 技术报告 2026

Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化

Alignment Unlocks Scale for Robotic Manipulation Foundation Models
Qwen Team · 2026年6月

现有 VLA 模型在标准基准上表现良好,但在真正 OOD 场景下严重退化——根本原因在于异构机器人数据无法被直接对齐后统一缩放。Qwen-RobotManip 以「先对齐、后扩展」为核心原则,在表示、运动、行为三个维度引入统一对齐框架,基于 ~38,100 小时全开源数据构建可泛化 VLA 基础模型,在多项 OOD 基准上大幅超越 π₀.₅ 等当前最优方法。

技术报告 · 2026-06-16 ~38,100 小时预训练数据 Qwen3.5-4B 视觉语言主干 博客页面 GitHub 代码
VLA 机器人操作 cross-embodiment alignment 人机数据合成 flow matching Diffusion Transformer 迁移泛化 指令跟随 OOD evaluation

01 动机

语言和多模态领域的基础模型因「异构数据来源可在统一公式下对齐,且互联网大量低成本数据允许多样化训练信号相互强化」而实现了强泛化。但机器人操作数据天然异构、昂贵且多样性有限,使得对齐与规模化难以同时实现。

「We investigate whether this scaling recipe can be applied to robotic manipulation to achieve genuine generalization.」——对齐是数据规模化的先决条件,而非独立的工程选择。
Qwen-RobotManip 系统概览
图1 系统总览(论文首页图)。 左侧:Human-to-Robot 合成流水线将来自 ~1,933 小时自我中心视频的人手演示渲染为 15 种双臂机器人形态(约 24,808 小时合成演示),再与多源真实机器人数据合并,共构成 >38,100 小时预训练语料。 中间:统一跨形态对齐——表示对齐(规范状态向量)、运动对齐(相机坐标系 EEF delta 姿态)、行为对齐(系统提示 + 上下文自适应)。 右侧:OOD 基准雷达图与数据规模化曲线,显示 Qwen-RobotManip 超越 π₀.₅ 等先前 SOTA,且随数据量增加涌现出 OOD 泛化能力。
~38,100h全开源预训练语料(含 H2R 合成)
15种双臂机器人形态(人机合成覆盖)
+20%RoboChallenge Table30-v1 Generalist Track 相对提升(vs. DM0_generalist)
4实体平台验证:AgileX ALOHA、Franka、UR、ARX

为什么标准基准不够用?

在标准 in-distribution 基准(LIBERO、RoboTwin)上,从零训练的模型(StarVLA、Ours-scratch)可媲美甚至超过大规模预训练模型(π₀、π₀.₅)。这是因为训练与评测共享同一分布,高准确率可通过记忆视觉-行为模式实现,而非真实泛化能力。 相比之下,在 OOD 基准(LIBERO-Plus、RoboTwin-Clean2Rand)上,差距显著拉开:π₀.₅ 大幅优于从零训练的模型,随扰动难度上升差距进一步加大。因此 Qwen-RobotManip 以 OOD 评测为首要指标。

02 方法

Qwen-RobotManip 围绕「对齐优先」原则,在数据、模型、训练三个层面协同设计:统一 80 维规范状态-动作表示、相机坐标系 delta 姿态运动对齐、结构化体态提示与上下文内策略自适应,配合 Human-to-Robot 合成流水线实现大规模多源训练。

Qwen-RobotManip 模型架构
图3 Qwen-RobotManip 模型架构概览。 模型耦合 Qwen-VL 主干(Qwen3.5-4B)与 flow-matching Diffusion Transformer (DiT) 动作头。主干联合编码多视角视觉 token、结构化体态提示(Embodied Chain-of-Thought)、历史上下文 token,最后层隐藏态通过交替 cross-attention 注入 DiT。状态与动作共享统一 80 维规范表示,EEF 动作以相机坐标系 delta 姿态表达,条件于相机参数与 end-effector 类型嵌入。VLM 协同训练与 VLA 训练使用独立 batch。

表示对齐:统一状态-动作空间

引入 80 维规范向量表示:两个 29 维单臂 block(各含 Joint positions 7d、EEF pose 9d、Gripper state 1d、Dexterous hand joints 12d)+ 22 维预留维度。不同形态(单臂 Franka、双臂 ALOHA、人形机器人)各自填充对应子集,未激活维度通过 per-dimension binary mask 排除在训练损失之外,避免 "幽灵" 监督干扰梯度。

运动对齐:相机坐标系 EEF delta 姿态

不同数据集的 end-effector 姿态在不同坐标系下记录,导致即使是相同物理运动,数值上也可能截然不同。 通过将 EEF delta 动作表示为相机坐标系 delta pose(camera-frame delta pose),视觉上相似的运动在动作空间中数值也相近,直接对齐视觉观察空间与动作空间,促进跨形态迁移。 同时通过 Camera-aware Positional Encoding (CaPE) 将相机外参注入 DiT cross-attention,使动作头能够推理相机几何关系。

行为对齐:结构化体态提示

每步推断时提供结构化文本提示,字段包括:embodiment(机器人平台标识)、instruction(任务描述)、speed(episode 长度 bin,500 步为单位)、fps(时间采样率)、camera view direction(arm side / opposite side)。为提高对缺失信息的鲁棒性,训练中以 15% 概率随机丢弃 embodiment、speed、fps 字段。

上下文内策略自适应(In-Context)

受大语言模型 in-context learning 启发,Qwen-RobotManip 配备上下文策略自适应机制:将同一 episode 内近期执行历史(observation-action chunk 对)作为结构化上下文 token 序列注入策略,无需更新参数即可在部署时实现行为自适应。采用随机上下文采样(Stochastic context sampling)防止模型退化为简单的"复制近期动作"捷径。

Human-to-Robot 数据合成流水线

自我中心人手演示与机器人数据在形态和视觉域之间存在显著差距。合成流水线分两阶段:

~1,933 小时自我中心数据渲染为 15 种双臂机器人形态(Panda、UR5e、ARX-L5、xArm7、IIWA、Kinova Gen3 等),共约 24,808 小时合成演示。

双流协同训练(Dual-Stream Co-Training)

以 9:1 的机器人数据与 VL 数据比例同步训练 VLA 流和 VLM 流,防止动作预测压力导致 VLM 主干感知与推理能力退化。VL 数据包括通用视觉理解、空间感知与推理、OCR、多模态专业知识、指令跟随,以及专门合成的体态中心 VL 数据(Embodied Chain-of-Thought、自我中心视频理解、2D 轨迹预测)。

03 实验

在仿真 OOD 基准(LIBERO-Plus、RoboTwin-Clean2Rand、RoboCasa365、EBench、RoboTwin-IF、RoboTwin-XE)与真实机器人平台(AgileX CobotMagic ALOHA、ARX ALOHA、UR5、Franka)上进行系统评测,以 π₀(Black et al., 2024)和 π₀.₅(Black et al., 2025)为主要基线。

标准基准(In-Distribution)

方法LIBERORoboTwin-EasyRoboTwin-Hard
π₀ (Black et al., 2024)94.465.958.4
π₀.₅ (Black et al., 2025)97.682.776.8
StarVLA (Community, 2026)98.085.787.3
Abot-M0 (Yang et al., 2026)98.686.185.1
Being-H0.7 (Luo et al., 2026c)99.290.289.6
Qwen-RobotManip99.193.492.5
Qwen-RobotManip-Context99.293.794.0

OOD 泛化基准(核心评测)

OOD 泛化结果汇总
图7 OOD 泛化结果汇总(论文 Figure 7)。 (a) 任务与场景泛化:LIBERO-Plus、EBench、RoboCasa365-Unseen、LIBERO-Plus 各设定下 Qwen-RobotManip(深紫)大幅领先 π₀.₅(浅紫),且差距随评测难度上升而扩大。 (b) 指令跟随(RoboTwin-IF):Pick-Diverse(+35pp)、Place-Relative(+37pp)、Operate-Mic-Drawer(+27pp)、Operate-Tabletop(+27pp)均显著领先,平均 72.2% vs. π₀.₅ 49.6%。 (c) 零样本跨形态迁移(RoboTwin-XE,camera-frame EEF):ARX-X5 42.9%、UR5-WSG 22.8%、Franka 5.9%,总体 23.9%,约为 π₀.₅(7.5%)的 3.2 倍。
基准(OOD)π₀.₅ (SOTA)Qwen-RobotManipQwen-RobotManip-Context
LIBERO-Plus (Total)84.489.091.4
RoboTwin-C2R (Hard)47.969.469.4
RoboCasa365 (Total)16.935.933.8
EBench (Overall SR)27.145.643.6
RoboTwin-IF (Avg.)49.672.272.0
RoboTwin-XE (Avg., eef)7.523.9

真实机器人评测

真实机器人高难度任务结果
图17 RoboChallenge Table30-v1 六项高难度任务(论文 Figure 17)。 包括:插网线(30% vs. 先前 SOTA 10%)、倒薯条入盘(30% vs. 0%)、制作素食三明治(10% vs. 0%——唯一非零成功率模型)、排列纸杯(70% vs. 10%)、分拣电子产品(50% vs. 0%)、折叠洗碗布(30% vs. 10%)。先前 SOTA Generalist 平均仅 5%,Qwen-RobotManip 达 36.7%。

在 CobotMagic ALOHA 平台上,ID 基准平均成功率 88.6%(π₀.₅ 42.9%,StarVLA 20.0%),OOD 基准 87.5%(π₀.₅ 37.5%,StarVLA 0.0%)。在 ARX ALOHA 上,少样本自适应(130 次演示)四项任务 Qwen-RobotManip 胜出;跨形态技能迁移(4 项新任务,零 ARX 演示)达 55.0%,而消融基线(w/o UnifiedSpace 7.5%、w/o UnifiedEEF 12.5%)几乎失败,验证统一对齐的关键作用。

RoboChallenge Table30-v1 Generalist Track

提交 Qwen-RobotManip 至 Table30-v1 Generalist Track(30 项操作任务,跨 4 个实体形态),成功率 45%,过程分 59.83,超越 DM0_generalist(37% / 48.43 分)8 个百分点,排名第一,相对提升约 20%。在双臂协调任务(8 项)上平均 40.0%,在拾放任务(12 项)上平均 63.3%,均大幅领先所有基线。

消融实验

数据规模化曲线(Figure 18)显示:具有统一表示的变体(Ours、Ours w/o UnifiedEEF)在 1%–100% 训练数据区间内验证 MSE 近似对数线性下降,呈清晰数据规模化律;而 Ours w/o UnifiedSpace 曲线不稳定,EEF 动作预测 MSE 显著更高。验证了「对齐是规模化的前提」这一核心命题。

上下文自适应消融(Table 15):无上下文基线(Structure Prompt 配置)Hard 平均 65.9%;添加上下文(10 denoising steps)提升至 70.9%(+5.0 点);20 steps 无额外收益(71.0%)。随机上下文采样对于防止"复制近期动作"退化至关重要。

04 局限性

说明:以下局限性部分为作者在技术报告中明确陈述,部分为从设计中推断(标注"设计推断")。
cold-start 上下文问题(作者明确陈述)

「We do note one practical limitation observed in real-robot deployment: at the start of an episode, the context consists entirely of zero-padded placeholders, and the model, having learned to condition on quiescent history, tends to hesitate before initiating motion.」为此同时发布有/无上下文两种变体供用户按需选择。

精细操作任务仍有明显差距(作者明确陈述)

在 CobotMagic ALOHA ID 基准中,yellow-disc-insertion(精确插盘)成功率仅 2/5,作者指出「highlighting the difficulty of precise insertion on real hardware」。高精度接触丰富型操作仍是挑战。

数据规模依赖合成与人手视频,领域偏移风险(设计推断)

~24,808 小时合成数据来自人手视频经 Human-to-Robot 流水线渲染,视觉质量和动作分布与真实机器人数据仍存在域差距。尽管合成流水线已引入深度合成和 IK 求解,但极端光照、复杂纹理等场景的泛化能力尚未完整评估。

评测覆盖局限:移动操作、灵巧手等形态偏少(设计推断)

当前 OOD 评测主要集中在固定基座的桌面操作(单臂/双臂)。EBench 中移动操作任务上 Qwen-RobotManip 成功率(≈35%)低于固定桌面任务(≈50%),灵巧手形态数据量相对有限,泛化能力尚待验证。