机器人 · Robotics · 2025

RoboTwin 2.0

可扩展双臂机器人操作数据生成器与强域随机化基准
Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu 等 · Shanghai AI Lab · HKU MMLab · SJTU · THU

RoboTwin 2.0 是一个面向双臂机器人操作的大规模合成数据生成框架,集成了基于多模态大语言模型(MLLM)的闭环专家代码生成、五维域随机化以及机器人本体感知自适应抓取。该系统包含 731 个物体组成的操作数据集,覆盖 147 个类别,预生成超过 10 万条专家轨迹,并提供 50 任务双臂操作基准,显著提升了策略在真实世界中的泛化能力。

arXiv 2025 50 任务 · 5 机器人平台 731 objects · 147 categories 📄 arXiv:2506.18088 Project Page
双臂机器人操作 合成数据生成 域随机化 sim-to-real bimanual manipulation MLLM 代码生成 embodiment-aware benchmark

01 动机

双臂机器人操作需要海量高质量轨迹数据,而现有合成数据管线在自动质量控制、场景多样性和跨机器人平台泛化三方面存在根本缺陷。

"lack of automated quality control: without an expert-level validation loop, many generated trajectories include execution failures or suboptimal grasps; domain randomization is often superficial, yielding overly clean and homogeneous scenes; overlooking cross-embodiment variation: different bimanual platforms can differ substantially in their kinematic capabilities."
RoboTwin 2.0 系统总览
图 1:RoboTwin 2.0 系统概览。 框架包含:(左)基于 MLLM 的专家数据生成管线;(中)覆盖 50 个任务的双臂操作基准,支持 Franka、Piper、UR5、ARX-X5、Aloha-AgileX 五种机器人平台;(右)包含 731 个物体、147 个类别的 RoboTwin Object Dataset(RoboTwin-OD),每个物体均标注了操作姿态候选。
731操作物体数量(147 类别)
50双臂操作任务基准
5支持的机器人平台
367%10 条真实样本相对增益(vs. 纯真实数据基线)

真实数据采集成本高昂且难以规模化,而直接使用合成数据训练的策略往往因 sim-to-real 差距而失败。RoboTwin 2.0 通过三个相互协同的组件来解决上述问题:自动化专家数据生成、全面的域随机化,以及机器人本体感知自适应,从而生成 "high-quality, diverse, realistic, and interaction-rich datasets for bimanual manipulation"。

02 方法

RoboTwin 2.0 由三大核心组件构成:MLLM 驱动的闭环专家代码生成、五维系统性域随机化,以及基于物体 affordance 的机器人本体感知抓取适配。

RoboTwin 2.0 数据生成管线
图 2:RoboTwin 2.0 数据生成管线。 给定任务描述,MLLM 生成 Python 任务程序,在仿真中执行并由视觉-语言观察者模型进行逐帧诊断,根据"multimodal execution feedback"迭代修正代码,直到程序达到目标成功率或耗尽最大修正轮次(5 次)。合格程序随后叠加五维域随机化,生成多样化的专家轨迹。

专家代码生成(Automated Expert Code Generation)

系统采用闭环架构,由代码生成模型与视觉-语言观察者模型协同工作。每次生成的任务程序在仿真中执行 10 次以评估随机性影响。观察者模型对失败执行进行逐帧检查,诊断失败模式(如抓取轴错误、碰撞干涉等),并向代码生成模型反馈精准的错误定位,指导代码修复。最多允许 5 次连续迭代修正,未达标则终止并标记为失败任务。与仅使用文本反馈相比,多模态反馈将 Average Success Rate (ASR) 从 62.1% 提升至 71.3%,同时将 token 消耗从 1236.6 降至 839.7。

专家代码生成闭环架构
图 3:专家代码生成闭环架构。 代码生成代理(code-generation agent)与视觉-语言观察者代理(VLM observer agent)交替工作,观察者对仿真执行视频进行帧级检查,提供故障定位诊断,驱动代码迭代修复,直至达到目标成功率。

五维域随机化(Domain Randomization)

针对场景外观和语言指令实施五个维度的系统化增广,从根本上解决仿真到现实的视觉差距:

五维域随机化可视化
图 4:五维域随机化可视化与纹理库。 从左到右展示了杂乱物体、背景纹理(来自 11,000 张纹理库)、光照变化、桌面高度、语言指令五个维度的随机化效果,以及典型任务在不同域随机化配置下的场景对比。

机器人本体感知抓取适配(Embodiment-Aware Grasp Adaptation)

不同双臂平台在运动学上差异显著(如 Piper 自由度受限,Aloha-AgileX 臂展不同),通用抓取姿态往往导致部分平台无法执行。RoboTwin 2.0 为 RoboTwin-OD 中的每个物体标注多个候选操作姿态(覆盖不同抓取轴),通过角度扰动偏向更高可达性的抓取候选,实现平台专属的抓取执行。该策略在全平台平均提升 8.3% 的操作成功率,其中低自由度平台 Piper 提升最高达 +22.7%,Aloha-AgileX 提升 +13.7%

RoboTwin-OD 物体数据集
图 7:RoboTwin Object Dataset(RoboTwin-OD)。 包含 147 个类别、731 个带操作姿态标注的三维物体模型。每个物体标注了多个候选抓取轴,用于机器人本体感知的自适应抓取选择。

03 实验

在代码生成质量、策略鲁棒性(仿真)以及 sim-to-real 迁移三个维度上进行全面评估,涵盖 RDT、Pi0、DP3 等主流策略学习方法和 5 种机器人平台。

代码生成质量(Table 1)

方法 ASR (%) Top5-ASR (%) CR-Iter Token Cost
RoboTwin 1.0 Vanilla 47.4 2.42 1236.6
RoboTwin 2.0(文本反馈) 62.1
RoboTwin 2.0(多模态反馈) 71.3 78.6 1.76 839.7

策略鲁棒性:域随机化数据的影响(仿真)

在 50 任务基准(Easy vs. Hard 配置)上评估 RDT、Pi0、DP3 等策略。使用域随机化数据训练相比 clean 数据带来显著提升,且 Hard 配置下分数骤降凸显了真实鲁棒性挑战:

策略 Easy (%) Hard (%) 域随机化提升(RDT)
RDT 34.5 13.7 +31.9%(相对提升)
Pi0 46.4 16.3 +29.3%(相对提升)
DP3 55.2 5.0

真实世界 Sim-to-Real 评估

在 Franka 平台上进行四种配置(seen/unseen 场景 × clean/cluttered 环境)的真实实验,使用 10 条真实演示 + 1000 条合成轨迹的 few-shot 设置:

配置 Seen Clean Seen Cluttered Unseen Clean Unseen Cluttered
域随机化合成数据增益 +13.5% +27.5% +23.5% +33.0%

在 unseen 背景的 zero-shot 配置(仅合成数据,无真实演示)下,成功率分别提升 +21.0%+20.5%。总体而言,10 条真实样本 + 合成数据相对于仅使用真实数据的基线实现了 367% 的相对增益。

真实世界评估结果
图 10:真实世界评估(四种测试配置)。 从左到右依次为:seen clean、seen cluttered、unseen clean、unseen cluttered 四种场景配置下的机器人执行关键帧,覆盖带/不带杂乱物体与已见/未见背景的组合,系统性验证了域随机化在真实部署中的有效性。
50 个双臂操作任务关键帧
图 8:50 个双臂操作任务关键帧总览。 涵盖从简单单步抓放到复杂多步组装、工具使用等各类任务,任务设计兼顾 Easy 和 Hard 难度配置,用于全面评估策略的操作能力。

消融分析

对域随机化各维度的消融结果表明,杂乱物体和背景纹理对 sim-to-real 性能贡献最大;Clean 数据训练对域随机化测试场景的提升"showed negligible improvements",说明五维随机化不可或缺。机器人本体感知抓取适配的消融同样显示,低自由度平台(如 Piper)获益最明显(+22.7%),验证了平台专属抓取候选策略的必要性。

04 局限性

注: 论文未设独立 Limitations 章节。以下第一条为论文正文中明确陈述(stated),其余为从系统设计中推断(inferred)。
视觉观察者诊断准确率有限(stated)

论文指出,视觉-语言观察者模型对失败执行的错误定位准确率仅约 30%。"failures from invisible factors like incorrect grasp axis parameters remain challenging for purely vision-based observers to diagnose."这意味着部分失败轨迹可能无法被有效过滤,影响数据质量的上限。

Hard 配置下策略性能大幅下降(stated/inferred)

即便使用域随机化数据,策略在 Hard 基准配置下的成功率相较 Easy 配置仍显著下降(DP3 从 55.2% 跌至 5.0%,Pi0 从 46.4% 跌至 16.3%),说明现有策略对强随机化场景的鲁棒性仍有 "significant room for improvement"。

数据生成规模与任务多样性的扩展边界(inferred)

当前系统覆盖 50 个任务和 5 种平台,代码生成的 ASR 上限为 71.3%(Top5-ASR 78.6%),约有 20-30% 的任务程序生成失败。对于需要更复杂接触物理或长时程规划的任务,MLLM 驱动的代码生成可靠性可能进一步下降,限制了系统向更广泛操作场景的自动扩展。

真实平台评估范围有限(inferred)

真实世界实验主要在 Franka 平台上进行,其余四种平台(Piper、UR5、ARX-X5、Aloha-AgileX)的 sim-to-real 结果以仿真为主,真实部署验证尚不完整,不同平台间的迁移效果有待进一步实验确认。