RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

01 动机

训练通用机器人的最大瓶颈在于大规模、多样化数据集的匮乏。现实采集成本极高，而现有仿真环境场景单一、资产稀少，难以覆盖日常家务的复杂性。RoboCasa 旨在通过构建写实感强的大规模厨房仿真，结合 AI 生成工具（text-to-3D、text-to-image、LLM 任务生成），为机器人学习提供可扩展的合成数据源。

"We present RoboCasa, a large-scale simulation framework for training generalist robots in everyday environments. We focus on the kitchen as a setting that offers diverse challenges, including object diversity, spatial reasoning, and long-horizon task execution."

kitchen floor plans — 图 1：RoboCasa 中的厨房平面图类型。参考家居规划杂志设计了 10 种不同形状与尺寸的平面图，从基础 L 形到高端岛台式厨房，覆盖 12 种建筑风格（工业、斯堪的纳维亚、沿海、现代等），共 120 种场景配置。

120厨房场景配置 (10 平面图 × 12 风格)

2,509高质量 3D 物体资产，涵盖 153 类别

100任务总数 (25 原子 + 75 复合)

100K+合成轨迹数据量

diverse 3D objects — 图 2：RoboCasa 提供的多样化高质量 3D 物体。2,509 个资产分布在蔬菜、家禽、饮料、容器等 153 个类别中，大部分（1,592 个）通过 Luma.ai text-to-3D 生成，其余来自 Objaverse 数据集。

02 方法

RoboCasa 由三个核心组件构成：（1）写实的厨房仿真环境，支持多种机器人形态；（2）结合 LLM 自动生成的 100 项任务；（3）基于 MimicGen 的大规模合成数据生成流程。框架构建于 RoboSuite / MuJoCo 之上，通过 NVIDIA Omniverse 实现照片级渲染，仿真速度约 25.2 fps。

环境与资产设计

场景设计兼顾视觉多样性与物理真实性：每个厨房随机化平面布局、建筑风格、墙壁/地板/台面纹理（各 100 种 AI 生成纹理），以及电器和物体摆放。支持带轮底座、人形机器人和四足机器人+手臂等多种形态（cross-embodiment）。电器（微波炉、烤箱、咖啡机、水槽等）均有关节结构和状态变化（如旋钮控制炉灶点火）。

interactable appliances — 图 3：RoboCasa 中的可交互电器示例。框架提供数十种电器，多数为关节式结构，支持开关柜门/抽屉、旋转旋钮、按键等精细操作，并有对应的状态变化（如炉灶点火、微波炉开关门）。

LLM 辅助任务生成

借助 GPT-4 的双阶段提示（first prompt → 20 种高层厨房活动；second prompt → 每类活动的具体任务描述），生成 75 项复合任务，人工过滤逻辑不一致后得到最终任务集。任务涵盖冲咖啡/茶、洗碗、备菜、热饭、摆桌等日常场景，每项任务按原子技能（开/关柜、拾取/放置等）分解为有序子步骤。

LLM task generation — 图 4：使用 LLM 创建多样化复合任务的流程。首先提示 GPT-4 列举厨房高层活动，再针对每类活动生成具体任务描述，最后人工筛选并编写成可执行的任务蓝图，共 75 项复合任务。

MimicGen 合成数据生成

每项原子任务仅收集 50 条人工演示（3D SpaceMouse 遥操作），随后通过扩展的 MimicGen 系统自动生成大规模合成轨迹。MimicGen 将演示分解为以物体为中心的操作片段，将各片段适配到新场景配置后拼接执行，使用 rejection sampling 保证成功率，并支持多进程并行生成。最终发布数据集包含 100K+ 轨迹（Human-50 基线 1,250 条 + Generated-3000 等级 72,000 条）。

策略架构：BC-Transformer

用于评估的基线策略（BC-Transformer）接受 10 步观测历史与语言目标条件，三路相机输入（手眼、左/右工作区），ResNet-18 视觉编码器 + FiLM 融合，6 层 Transformer（约 2000 万参数），训练 500K 步，学习率 1e-4 with warmup。

03 实验

实验围绕三条主线展开：（A）原子任务数据规模的扩展效应；（B）复合任务的 fine-tuning 效果；（C）真实机器人的 sim-to-real 迁移验证。评估指标均为任务成功率。

A · 原子任务：数据规模扩展

在 24 项原子任务上，将人工演示（Human-50）与不同规模合成数据（Generated-100/300/3000）的多任务策略进行对比：

数据集	轨迹总数	平均成功率	vs Human-50
Human-50	1,200	28.8%	— (基线)
Generated-100	2,400	26.3%	−2.5%
Generated-300	7,200	35.0%	+6.2%
Generated-3000	72,000	47.6%	+65%

scaling results — 图 5：人工演示与机器生成数据集的对比学习曲线（24 项原子任务，成功率）。随合成数据规模增大，呈现清晰的 scaling trend：Generated-3000 成功率比 Human-50 提升 65%。任务难度两极分化：关抽屉（96%）/关单门（94%）等重复性任务趋于收敛，而 pick-and-place（6–44%）和插入（12%）等高多样性任务仍有较大提升空间。

B · 复合任务：从原子任务 Fine-tuning

5 项代表性复合任务（ArrangeVegetables、MicrowaveThawing、RestockPantry、PreSoakPan、PrepareCoffee）分别采用"从零学习（50 条人工演示）"与"从原子任务预训练 fine-tuning"两种方式：

任务	从零学习	Fine-tuning
ArrangeVegetables	2.0%	12.0%
MicrowaveThawing	0%	2.0%
RestockPantry	0%	6.0%
PreSoakPan	0%	4.0%
PrepareCoffee	0%	0%

预训练带来一定提升，但复合任务整体成功率仍极低，长程操作的精细控制和阶段过渡是主要瓶颈。

C · 真实机器人 Sim-to-Real 迁移

在真实厨房中用 Franka Panda 带轮移动平台评估三类 pick-and-place 任务（台面→水槽、水槽→台面、台面→柜子），对比"仅真实数据（50 条/任务）"与"真实 + 仿真数据共训练"：

训练数据	已见物体	未见物体
Real only	13.6%	2.6%
Real + Sim（本文）	24.4%	9.3%
提升	+79%	+258%

real robot setup — 图 6：真实机器人实验配置。在真实厨房环境中使用带轮底座的 Franka Emika Panda，评估 sim-to-real 迁移效果。加入仿真数据共训练后，已见物体成功率提升 79%，未见物体提升 258%。

04 局限性

说明：以下局限性部分为论文 Future Work 小节明确陈述（标注"论文陈述"），部分为系统设计推断（标注"推断"）。

复合任务成功率极低（论文陈述）

5 项复合任务中，从零学习成功率几乎为 0，fine-tuning 后最高也仅 12%（ArrangeVegetables）。论文明确指出"significant room for improvement with better architectures/algorithms"，长程任务的阶段过渡与精细操控是主要失败原因。

合成轨迹质量问题（论文陈述）

MimicGen 生成的轨迹可能包含"jerky motions, collisions"等不理想行为，论文提出未来需自动过滤低质量轨迹，但当前版本尚未实现。

场景范围局限于厨房（论文陈述）

当前框架仅覆盖厨房环境，缺乏灵巧操作（dexterous）、可变形物体（deformable）和双手协作（bimanual manipulation）支持，论文将扩展至其他家居场景列为未来方向。

任务实现仍需人工编程（推断）

LLM 仅生成任务描述，实际可执行任务蓝图（task blueprints）仍需人工编写代码，限制了任务规模的进一步扩展。论文提出探索 LLM-based code generation 作为未来方向。

Sim-to-Real 泛化仍有差距（推断）

真实机器人实验中，已见物体成功率为 24.4%，未见物体仅 9.3%，表明模型对新物体的视觉泛化能力有限，仿真与真实环境间的 domain gap 仍然显著。