RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

01 动机

真实机器人测试是验证机器人控制算法的不可或缺环节，但现有评测体系面临三大挑战： 人工测试者偏差（同一任务因测试者不同，成功率可从 0% 波动至 100%）、 可重现性差（初始场景状态难以精确还原）、以及规模化成本高（跨机器人平台、跨任务的大规模测试难以实施）。

"Testing on real machines is indispensable for robotic control algorithms."

Table30 任务总览与排行榜 — **图 2：**Table30 基准的 30 项任务缩略图（左）与各 baseline 模型排行榜（右）。涵盖精细三维定位、多阶段操作、时序推理、双臂协作及软体操作等多种难度维度。

10台真实机器人（4 种平台）

30Table30 基准任务

43.7%最优模型 π₀.₅ 平均 Success Rate

5%时序推理任务平均 SR（最难类别）

02 方法

RoboChallenge 采用"远程机器人（remote robot）"范式：参赛者在本地运行推理，通过低层 API 获取精确时间戳的传感器观测，并将动作指令写入机器人的 FIFO 队列，无需提交 Docker 镜像或模型权重，彻底规避软件栈兼容性问题，同时通过 Visual Task Reproduction 机制保证场景初始状态的高度一致性。

在线 API 调用示意图 — **图 1：**RoboChallenge 在线服务架构。低层 API 提供精确时间戳的 RGB、深度及本体感知观测，并通过 FIFO 动作队列支持异步执行。用户无需对外开放公网 API，模型在本地硬件推理。

机器人平台

系统部署 4 种机器人平台，共 10 台：

UR5：6-DOF 单臂，Robotiq 夹爪，RTDE 接口控制
Franka Panda：7-DOF 单臂，Robotiq 夹爪，libfranka 驱动
Cobot Magic Aloha：双 6-DOF 臂，安装于移动平台
ARX-5：6-DOF 单臂，CAN 总线驱动

所有机器人均配备 Intel RealSense RGBD 相机（主视角、腕部、侧视角三路），提供 RGB + 深度 + 本体感知多模态观测。系统可提供每任务最多 1,000 条示教轨迹（存储于 Hugging Face，JSON 格式）。

Visual Task Reproduction（场景可重现机制）

为解决测试者偏差问题，系统采用参考图像叠加方案：将任务开始时的参考图像实时叠加在摄像头实时画面上，要求测试者调整场景直至当前观测与参考图像精确匹配。论文将"Adaptive tester"（模型作者）识别出任务 "sweet spot" 从而显著抬高成功率的现象称为 "Sweet-spot Effect"。该机制有效将不同测试者间的成功率差异压缩至可接受范围。

测试者偏差可视化 — **图 3：**同一任务、不同类型测试者（experienced / ignorant / adaptive）导致的成功率剧烈波动。

Visual Task Reproduction 界面 — **图 5：**Visual Task Reproduction 用户界面。参考图像半透明叠加于实时摄像头画面，测试者须精确还原初始场景状态。

评分机制

每项任务分解为若干阶段，满分 10 分，共 10 次 rollout，总分上限 100 分。每次重试扣除 0.5 分惩罚。基准设有 benchmark protocol（评估单一模型的稳定性）和 comparative protocol（多模型公平排名）两种评测模式。

参赛者工作流 — **图 10：**RoboChallenge 面向参赛者的完整工作流：本地推理 → API 调用 → 机器人执行 → 结果反馈。

03 实验

论文在 Table30 上评测了 5 种主流 VLA 实现，覆盖 Task-specific（全量任务数据训练）与 Generalist（每任务 50 条混合训练）两种训练设置，以 Success Rate (SR) 和 Progress Score 为主要指标。

主要结果（30 任务平均）

模型	训练设置	Success Rate (%)	Progress Score
π₀.₅	Task-specific	43.7	62.2
π₀	Task-specific	28.3	47.6
CogACT (Microsoft)	Task-specific	11.7	21.8
π₀.₅	Generalist	17.7	31.3
π₀	Generalist	9.3	20.6

按任务难度标签分析

论文为 30 项任务打上难度标签，揭示 VLA 当前能力边界（所有模型平均）：

难度标签	平均 Success Rate (%)	平均 Progress Score
temporal dependence（时序依赖）	5	14
soft body（软体操作）	3	8
multiview（多视角）	5	21
bimanual（双臂协作）	8	20
precise 3D localization（精细定位）	12	18
simple pick-and-place（简单抓放）	4	42
全任务平均	22	37

任务分布可视化 — **图 7：**Table30 任务分布。按 VLA 难度、机器人类型、场景位置、操作对象类型四个维度分别标注。

SR 与 Score 分布 — **图 8：**各模型在所有任务上的 SR 与 Progress Score 累积分布。π₀.₅ 在高百分位段表现显著领先。

模型排行与典型任务结果

**图 2（右）：**各 baseline 模型排行榜。π₀.₅ Task-specific 以 43.7% SR 位居第一；典型任务中 "stack bowls" 达 100% SR / 99.5 score，而 "fold dishcloth" 仅 20% SR / 24 score。

鲁棒性分析

论文验证了 VLA 对视觉扰动的鲁棒性：在输入图像上施加背景替换、遮挡等增强后，模型输出动作几乎不变，说明 VLA 已具备一定视觉不变性，环境光照与相机漂移等非受控因素对评测的影响在可接受范围内。

04 局限性

Note：以下局限性均为论文作者明确陈述（stated），部分作者同时指出当前未观测到负面影响。

模型诚信性无法核验（Model Integrity）

采用"用户本地推理"范式的核心代价是： "we have no means to check whether the model actually run by the user matches the user's claim." 恶意用户可替换模型或引入人工辅助（human-in-the-loop cheating），系统当前无技术手段防范。

测试集过拟合风险（Test-set Overfitting）

固定的参考图像场景存在被针对性过拟合的风险。论文指出 "There is a chance that the model submissions 'overfit' to the particular reference test cases"，但实验中目前未观测到此现象。

当前 VLA 均为单帧模型（Single-frame Models）

所有被测 VLA 均为 single-frame 推理，无法处理时序依赖任务（"identical images may be received on different stages"），这直接导致 temporal dependence 类任务平均成功率仅 5%，是最大能力短板之一。

低分辨率输入限制精细操作（Low Resolution: 224×224）

被测模型均工作在 224×224 低分辨率下，对精细三维定位任务（precise 3D localization）造成显著影响，该类任务平均 SR 仅 12%。

传感器套件不完整（No Force/Torque Sensors）

为降低系统复杂度，当前平台省略了力矩传感器。论文承认这对接触丰富（contact-rich）任务的精细操作能力有所限制，未来版本可能补充。