机器人操作 · 仿真评估 · ICRA 2024

Evaluating Real-World Robot Manipulation Policies in Simulation

SIMPLER:可扩展、可复现的机器人操作策略仿真评估框架
Xuanlin Li*, Kyle Hsu*, Jiayuan Gu* · Karl Pertsch, Oier Mees, Homer Rich Walke · Chuyuan Fu, Sean Kirmani, Sergey Levine, Jiajun Wu, Chelsea Finn, Hao Su, Quan Vuong, Ted Xiao
UC San Diego · Stanford University · UC Berkeley · Google DeepMind

真实机器人评估代价高昂、难以规模化。本文提出 SIMPLER(Simulated Manipulation Policy Evaluation for Real Robot Setups),通过系统辨识缩小控制间隙、"Visual Matching"方法缩小视觉间隙,在仿真中对真实策略进行评估,实现与真实世界强相关的可复现评估流程。

arXiv 2024-05 ~1500 真实评估对照轨迹 Google Robot & WidowX (BridgeData V2) 📄 arXiv:2405.05941 🌐 Project Page
real-to-sim evaluation robot manipulation system identification visual matching 仿真评估 generalist policies MMRV sim-to-real gap

01 动机

随着通用机器人操作策略(如 RT-1、RT-2、Octo)的迅速发展,对其进行全面评估的代价也在急剧上升——真实世界评估需要大量人力、时间,且难以复现。本文核心问题是:能否将在真实数据上训练的策略放入仿真环境中评估,并使仿真结果与真实表现保持高度相关?

"Real-world evaluation of such policies is not scalable and faces reproducibility challenges, which are likely to worsen as policies broaden the spectrum of tasks they can perform."
SIMPLER teaser — real vs. simulated evaluations correlation
图0:SIMPLER 框架概览。左侧展示真实机器人评估的繁重流程(上)与 SIMPLER 仿真评估流程(下);右侧散点图显示在 Google Robot 与 WidowX 机器人上,约 1500 条评估轨迹中,仿真成功率与真实成功率呈现出强相关性,验证了仿真评估作为可靠代理的有效性。
~1500配对 sim-and-real 评估轨迹
0.924SIMPLER-VisMatch Pearson r(Google Robot 平均)
0.056SIMPLER-VisMatch MMRV(越低越好)
2支持的机器人形态:Google Robot & WidowX

现有数字孪生(digital twin)方案需要大量手工建模,不具备规模化潜力。本文的关键洞察是:不需要精确复刻真实环境,只需仿真策略排名与真实排名高度一致即可。为此,需解决两个核心间隙:控制间隙(control gap)和视觉间隙(visual gap)。

SIMPLER simulated environments
图1:SIMPLER 仿真环境套件。涵盖 Google Robot(RT 系列评估任务:Pick Coke Can、Move Near、Open/Close Drawer)和 BridgeData V2(WidowX)对应的操作任务。所有环境均可通过标准 Gym 接口一行代码导入。

02 方法

SIMPLER 通过两个主要技术消除真实与仿真之间的差距:(1)系统辨识(System Identification, SysID)消除控制间隙;(2)Visual Matching(绿幕背景 + 纹理匹配)消除视觉间隙。

消除控制间隙:System Identification (SysID)

控制间隙的核心问题是:在仿真中回放真实动作序列时,机器人末端执行器轨迹与真实不符,导致抓取失败。本文通过最小化如下损失来优化仿真控制器的 PD 参数(刚度 p 与阻尼 d):

利用离线数据集(如 RT-1 或 BridgeData V2 演示),无需进行额外真实数据采集,即可完成系统辨识。

System identification results — control gap
图2:系统辨识效果。对 Google Robot "Pick Coke Can" 任务,SysID 前(左)仿真轨迹严重偏离真实,导致抓取失败;SysID 后(右)仿真机器人能准确跟踪真实运动,成功复现抓取动作。

消除视觉间隙:Visual Matching

视觉差异会导致策略在仿真中表现失真。Visual Matching 包含两个步骤:

作为对比,本文还探索了另一种方法:Variant Aggregation——对场景视觉属性(背景、灯光、桌面纹理等)进行大量随机化,通过在多个变体上平均结果来获得鲁棒估计。实验表明 Visual Matching 效果更优。

Visual Matching approach
图3:Visual Matching 方法示意。左列为原始仿真渲染,中列为绿幕合成(真实背景 + 仿真前景),右列为额外进行纹理匹配后的效果,大幅缩小了与真实图像的视觉差距。

评估指标:MMRV 与 Pearson r

传统 Pearson 相关系数存在两个缺陷:(1)只关注线性关系;(2)对真实性能接近的策略极为敏感。本文提出新指标 Mean Maximum Rank Violation (MMRV)(范围 [0,1],越低越好),通过加权排名违反幅度来更准确地刻画仿真评估质量:

03 实验

在 Google Robot(RT-1、RT-1-X、RT-2-X、Octo-Base)和 WidowX (BridgeData V2) 上进行配对 sim-and-real 评估,对比 SIMPLER 与验证集 MSE 等基线方法的策略排名质量。

主要结果:与真实评估的强相关性

Real vs SIMPLER success rates on Google Robot tasks
图4:Google Robot 任务上的真实 vs. SIMPLER 成功率对比。SIMPLER-VisMatch 各任务均呈现出低 MMRV、高 Pearson r,表明仿真策略排名与真实排名高度一致。

核心数值结果(Google Robot,6个策略检查点对比):

评估方法 Pick Coke Can MMRV ↓ Drawer MMRV ↓ 平均 MMRV ↓ 平均 Pearson r ↑
Validation MSE 0.412 0.306 0.375 0.308
SIMPLER-VarAgg(ours) 0.084 0.235 0.143 0.778
SIMPLER-VisMatch(ours) 0.031 0.027 0.056 0.924
"Simulated manipulation policy evaluation with SIMPLER leads to strong correlation with real-world policy performance, and we recommend SIMPLER-'Visual Matching' as the default approach since it directly minimizes visual discrepancies between real and simulated environments."

分布偏移鲁棒性预测

本文进一步验证 SIMPLER 能否准确预测策略对分布偏移的敏感性,对比了背景、灯光、干扰物、桌面纹理、相机位姿等 5 类分布偏移轴。关键发现:

消融研究

视觉匹配消融(Google Robot Drawer 任务,3 个策略):

Green Screen Drawer Matching Robot Matching MMRV ↓ Real-Sim Success Gap ↓
0.0870.272
0.0870.198
0.1420.253
0.050 0.136

仅部分应用 Visual Matching(如只匹配抽屉而不匹配机械臂)反而会导致 MMRV 变差,说明场景各部分的视觉一致性至关重要,需整体应用

控制消融:SIMPLER SysID 方案的控制损失(0.131)和 MMRV(0.031)均优于两个替代参数设置(0.267/0.070 和 0.432/0.100)。

物理属性敏感性(质量、摩擦系数等):在合理参数范围内,SIMPLER 评估保持稳定(低 MMRV、高 Pearson r)。

物理仿真器无关性:在 Isaac Sim 上复现 SIMPLER(Variant Aggregation),同样获得与 SAPIEN 相近的强相关性,说明框架不依赖特定物理引擎。

04 局限性

Note:以下局限性均为论文作者在 Conclusion 部分明确陈述(stated)。
仅针对刚体操作任务(Rigid-Object Manipulation)

当前 SIMPLER 环境专注于物理仿真相对简单的刚体抓取与操作任务。许多近期研究已展示了布料、流体等软体对象的操作能力,但这类任务的仿真物理远未成熟,将 SIMPLER 扩展到柔性/软体对象操作(如利用 IPC 等软体物理仿真)是未来的重要研究方向。

绿幕方法仅适用于固定相机,且无法准确模拟阴影等视觉细节

"Green-screening" 方法要求场景中的相机位置固定(fixed cameras),无法处理动态视角变化,且在合成图像时难以还原物体阴影、反射等精细视觉特征,可能对部分对视觉敏感的策略造成影响。

环境创建流程仍需一定人工干预

当前构建 SIMPLER 评估环境的流程(资产整理、场景组装、纹理匹配等)仍需要人工参与,尚未实现全自动化。实现从真实场景图像全自动生成大规模高保真仿真评估环境是雄心勃勃的未来目标,需要场景重建、材质估计等多方面技术的进一步突破。