Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化

01 动机

语言和多模态领域的基础模型因「异构数据来源可在统一公式下对齐，且互联网大量低成本数据允许多样化训练信号相互强化」而实现了强泛化。但机器人操作数据天然异构、昂贵且多样性有限，使得对齐与规模化难以同时实现。

「We investigate whether this scaling recipe can be applied to robotic manipulation to achieve genuine generalization.」——对齐是数据规模化的先决条件，而非独立的工程选择。

Qwen-RobotManip 系统概览 — **图1 系统总览（论文首页图）。** 左侧：Human-to-Robot 合成流水线将来自 ~1,933 小时自我中心视频的人手演示渲染为 15 种双臂机器人形态（约 24,808 小时合成演示），再与多源真实机器人数据合并，共构成 >38,100 小时预训练语料。中间：统一跨形态对齐——表示对齐（规范状态向量）、运动对齐（相机坐标系 EEF delta 姿态）、行为对齐（系统提示 + 上下文自适应）。右侧：OOD 基准雷达图与数据规模化曲线，显示 Qwen-RobotManip 超越 π₀.₅ 等先前 SOTA，且随数据量增加涌现出 OOD 泛化能力。

~38,100h全开源预训练语料（含 H2R 合成）

15种双臂机器人形态（人机合成覆盖）

+20%RoboChallenge Table30-v1 Generalist Track 相对提升（vs. DM0_generalist）

4实体平台验证：AgileX ALOHA、Franka、UR、ARX

为什么标准基准不够用？

在标准 in-distribution 基准（LIBERO、RoboTwin）上，从零训练的模型（StarVLA、Ours-scratch）可媲美甚至超过大规模预训练模型（π₀、π₀.₅）。这是因为训练与评测共享同一分布，高准确率可通过记忆视觉-行为模式实现，而非真实泛化能力。相比之下，在 OOD 基准（LIBERO-Plus、RoboTwin-Clean2Rand）上，差距显著拉开：π₀.₅ 大幅优于从零训练的模型，随扰动难度上升差距进一步加大。因此 Qwen-RobotManip 以 OOD 评测为首要指标。

02 方法

Qwen-RobotManip 围绕「对齐优先」原则，在数据、模型、训练三个层面协同设计：统一 80 维规范状态-动作表示、相机坐标系 delta 姿态运动对齐、结构化体态提示与上下文内策略自适应，配合 Human-to-Robot 合成流水线实现大规模多源训练。

**图3 Qwen-RobotManip 模型架构概览。** 模型耦合 Qwen-VL 主干（Qwen3.5-4B）与 flow-matching Diffusion Transformer (DiT) 动作头。主干联合编码多视角视觉 token、结构化体态提示（Embodied Chain-of-Thought）、历史上下文 token，最后层隐藏态通过交替 cross-attention 注入 DiT。状态与动作共享统一 80 维规范表示，EEF 动作以相机坐标系 delta 姿态表达，条件于相机参数与 end-effector 类型嵌入。VLM 协同训练与 VLA 训练使用独立 batch。

表示对齐：统一状态-动作空间

引入 80 维规范向量表示：两个 29 维单臂 block（各含 Joint positions 7d、EEF pose 9d、Gripper state 1d、Dexterous hand joints 12d）+ 22 维预留维度。不同形态（单臂 Franka、双臂 ALOHA、人形机器人）各自填充对应子集，未激活维度通过 per-dimension binary mask 排除在训练损失之外，避免 "幽灵" 监督干扰梯度。

运动对齐：相机坐标系 EEF delta 姿态

不同数据集的 end-effector 姿态在不同坐标系下记录，导致即使是相同物理运动，数值上也可能截然不同。通过将 EEF delta 动作表示为相机坐标系 delta pose（camera-frame delta pose），视觉上相似的运动在动作空间中数值也相近，直接对齐视觉观察空间与动作空间，促进跨形态迁移。同时通过 Camera-aware Positional Encoding (CaPE) 将相机外参注入 DiT cross-attention，使动作头能够推理相机几何关系。

行为对齐：结构化体态提示

每步推断时提供结构化文本提示，字段包括：embodiment（机器人平台标识）、instruction（任务描述）、speed（episode 长度 bin，500 步为单位）、fps（时间采样率）、camera view direction（arm side / opposite side）。为提高对缺失信息的鲁棒性，训练中以 15% 概率随机丢弃 embodiment、speed、fps 字段。

上下文内策略自适应（In-Context）

受大语言模型 in-context learning 启发，Qwen-RobotManip 配备上下文策略自适应机制：将同一 episode 内近期执行历史（observation-action chunk 对）作为结构化上下文 token 序列注入策略，无需更新参数即可在部署时实现行为自适应。采用随机上下文采样（Stochastic context sampling）防止模型退化为简单的"复制近期动作"捷径。

Human-to-Robot 数据合成流水线

自我中心人手演示与机器人数据在形态和视觉域之间存在显著差距。合成流水线分两阶段：

Action Alignment：将人手关键点（MANO 表示，21 个关节）映射到并联夹爪机器人动作空间，定义虚拟指尖 k_vf = 0.7·k_index + 0.3·k_middle，EEF 位置取拇指与虚拟指尖中点，夹爪宽度为欧氏距离。应用 Savitzky-Golay 滤波平滑轨迹，高斯加权 SLERP 平滑方向。
Visual Alignment：SAM3 分割人手区域，ProPainter 光流引导修复背景，MuJoCo IK 求解机器人底座位姿，Depth Anything v3 估计场景深度后合成机器人图像。

~1,933 小时自我中心数据渲染为 15 种双臂机器人形态（Panda、UR5e、ARX-L5、xArm7、IIWA、Kinova Gen3 等），共约 24,808 小时合成演示。

双流协同训练（Dual-Stream Co-Training）

以 9:1 的机器人数据与 VL 数据比例同步训练 VLA 流和 VLM 流，防止动作预测压力导致 VLM 主干感知与推理能力退化。VL 数据包括通用视觉理解、空间感知与推理、OCR、多模态专业知识、指令跟随，以及专门合成的体态中心 VL 数据（Embodied Chain-of-Thought、自我中心视频理解、2D 轨迹预测）。

03 实验

在仿真 OOD 基准（LIBERO-Plus、RoboTwin-Clean2Rand、RoboCasa365、EBench、RoboTwin-IF、RoboTwin-XE）与真实机器人平台（AgileX CobotMagic ALOHA、ARX ALOHA、UR5、Franka）上进行系统评测，以 π₀（Black et al., 2024）和 π₀.₅（Black et al., 2025）为主要基线。

标准基准（In-Distribution）

方法	LIBERO	RoboTwin-Easy	RoboTwin-Hard
π₀ (Black et al., 2024)	94.4	65.9	58.4
π₀.₅ (Black et al., 2025)	97.6	82.7	76.8
StarVLA (Community, 2026)	98.0	85.7	87.3
Abot-M0 (Yang et al., 2026)	98.6	86.1	85.1
Being-H0.7 (Luo et al., 2026c)	99.2	90.2	89.6
Qwen-RobotManip	99.1	93.4	92.5
Qwen-RobotManip-Context	99.2	93.7	94.0

OOD 泛化基准（核心评测）

**图7 OOD 泛化结果汇总（论文 Figure 7）。** (a) 任务与场景泛化：LIBERO-Plus、EBench、RoboCasa365-Unseen、LIBERO-Plus 各设定下 Qwen-RobotManip（深紫）大幅领先 π₀.₅（浅紫），且差距随评测难度上升而扩大。 (b) 指令跟随（RoboTwin-IF）：Pick-Diverse（+35pp）、Place-Relative（+37pp）、Operate-Mic-Drawer（+27pp）、Operate-Tabletop（+27pp）均显著领先，平均 72.2% vs. π₀.₅ 49.6%。 (c) 零样本跨形态迁移（RoboTwin-XE，camera-frame EEF）：ARX-X5 42.9%、UR5-WSG 22.8%、Franka 5.9%，总体 23.9%，约为 π₀.₅（7.5%）的 3.2 倍。

基准（OOD）	π₀.₅ (SOTA)	Qwen-RobotManip	Qwen-RobotManip-Context
LIBERO-Plus (Total)	84.4	89.0	91.4
RoboTwin-C2R (Hard)	47.9	69.4	69.4
RoboCasa365 (Total)	16.9	35.9	33.8
EBench (Overall SR)	27.1	45.6	43.6
RoboTwin-IF (Avg.)	49.6	72.2	72.0
RoboTwin-XE (Avg., eef)	7.5	23.9	—

真实机器人评测

真实机器人高难度任务结果 — **图17 RoboChallenge Table30-v1 六项高难度任务（论文 Figure 17）。** 包括：插网线（30% vs. 先前 SOTA 10%）、倒薯条入盘（30% vs. 0%）、制作素食三明治（10% vs. 0%——唯一非零成功率模型）、排列纸杯（70% vs. 10%）、分拣电子产品（50% vs. 0%）、折叠洗碗布（30% vs. 10%）。先前 SOTA Generalist 平均仅 5%，Qwen-RobotManip 达 36.7%。

在 CobotMagic ALOHA 平台上，ID 基准平均成功率 88.6%（π₀.₅ 42.9%，StarVLA 20.0%），OOD 基准 87.5%（π₀.₅ 37.5%，StarVLA 0.0%）。在 ARX ALOHA 上，少样本自适应（130 次演示）四项任务 Qwen-RobotManip 胜出；跨形态技能迁移（4 项新任务，零 ARX 演示）达 55.0%，而消融基线（w/o UnifiedSpace 7.5%、w/o UnifiedEEF 12.5%）几乎失败，验证统一对齐的关键作用。

RoboChallenge Table30-v1 Generalist Track

提交 Qwen-RobotManip 至 Table30-v1 Generalist Track（30 项操作任务，跨 4 个实体形态），成功率 45%，过程分 59.83，超越 DM0_generalist（37% / 48.43 分）8 个百分点，排名第一，相对提升约 20%。在双臂协调任务（8 项）上平均 40.0%，在拾放任务（12 项）上平均 63.3%，均大幅领先所有基线。

消融实验

数据规模化曲线（Figure 18）显示：具有统一表示的变体（Ours、Ours w/o UnifiedEEF）在 1%–100% 训练数据区间内验证 MSE 近似对数线性下降，呈清晰数据规模化律；而 Ours w/o UnifiedSpace 曲线不稳定，EEF 动作预测 MSE 显著更高。验证了「对齐是规模化的前提」这一核心命题。

上下文自适应消融（Table 15）：无上下文基线（Structure Prompt 配置）Hard 平均 65.9%；添加上下文（10 denoising steps）提升至 70.9%（+5.0 点）；20 steps 无额外收益（71.0%）。随机上下文采样对于防止"复制近期动作"退化至关重要。

04 局限性

说明：以下局限性部分为作者在技术报告中明确陈述，部分为从设计中推断（标注"设计推断"）。

cold-start 上下文问题（作者明确陈述）

「We do note one practical limitation observed in real-robot deployment: at the start of an episode, the context consists entirely of zero-padded placeholders, and the model, having learned to condition on quiescent history, tends to hesitate before initiating motion.」为此同时发布有/无上下文两种变体供用户按需选择。

精细操作任务仍有明显差距（作者明确陈述）

在 CobotMagic ALOHA ID 基准中，yellow-disc-insertion（精确插盘）成功率仅 2/5，作者指出「highlighting the difficulty of precise insertion on real hardware」。高精度接触丰富型操作仍是挑战。

数据规模依赖合成与人手视频，领域偏移风险（设计推断）

~24,808 小时合成数据来自人手视频经 Human-to-Robot 流水线渲染，视觉质量和动作分布与真实机器人数据仍存在域差距。尽管合成流水线已引入深度合成和 IK 求解，但极端光照、复杂纹理等场景的泛化能力尚未完整评估。

评测覆盖局限：移动操作、灵巧手等形态偏少（设计推断）

当前 OOD 评测主要集中在固定基座的桌面操作（单臂/双臂）。EBench 中移动操作任务上 Qwen-RobotManip 成功率（≈35%）低于固定桌面任务（≈50%），灵巧手形态数据量相对有限，泛化能力尚待验证。