机器人 · Robotics · arXiv 2025

RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

首个面向 VLA 模型的大规模真实机器人在线评测平台
Adina Yakefu, Bin Xie, Chongyang Xu 等 37 位作者 · RoboChallenge Team

现有 VLA 模型评测大多依赖仿真或有限的真实机器人实验,缺乏标准化、可重现的大规模基准。 RoboChallenge 构建了一套在线真实机器人评测基础设施,配备 10 台跨 4 种平台的机器人, 并推出 Table30 基准(30 项桌面操作任务),系统地测试 π₀、CogACT 等主流 VLA 模型的真实能力。

arXiv 2025-10 10 台真实机器人 30 任务基准 Table30 📄 arXiv:2510.17950 🌐 Project Page
real-robot evaluation VLA benchmark embodied AI Table30 manipulation 机器人评测 visual task reproduction online benchmark

01 动机

真实机器人测试是验证机器人控制算法的不可或缺环节,但现有评测体系面临三大挑战: 人工测试者偏差(同一任务因测试者不同,成功率可从 0% 波动至 100%)、 可重现性差(初始场景状态难以精确还原)、 以及规模化成本高(跨机器人平台、跨任务的大规模测试难以实施)。

"Testing on real machines is indispensable for robotic control algorithms."
Table30 任务总览与排行榜
图 2:Table30 基准的 30 项任务缩略图(左)与各 baseline 模型排行榜(右)。 涵盖精细三维定位、多阶段操作、时序推理、双臂协作及软体操作等多种难度维度。
10台真实机器人(4 种平台)
30Table30 基准任务
43.7%最优模型 π₀.₅ 平均 Success Rate
5%时序推理任务平均 SR(最难类别)

02 方法

RoboChallenge 采用"远程机器人(remote robot)"范式:参赛者在本地运行推理,通过低层 API 获取精确时间戳的传感器观测,并将动作指令写入机器人的 FIFO 队列,无需提交 Docker 镜像或模型权重, 彻底规避软件栈兼容性问题,同时通过 Visual Task Reproduction 机制保证场景初始状态的高度一致性。

在线 API 调用示意图
图 1:RoboChallenge 在线服务架构。低层 API 提供精确时间戳的 RGB、深度及本体感知观测, 并通过 FIFO 动作队列支持异步执行。用户无需对外开放公网 API,模型在本地硬件推理。

机器人平台

系统部署 4 种机器人平台,共 10 台:

所有机器人均配备 Intel RealSense RGBD 相机(主视角、腕部、侧视角三路),提供 RGB + 深度 + 本体感知多模态观测。 系统可提供每任务最多 1,000 条示教轨迹(存储于 Hugging Face,JSON 格式)。

Visual Task Reproduction(场景可重现机制)

为解决测试者偏差问题,系统采用参考图像叠加方案:将任务开始时的参考图像实时叠加在摄像头实时画面上, 要求测试者调整场景直至当前观测与参考图像精确匹配。论文将"Adaptive tester"(模型作者)识别出任务 "sweet spot" 从而显著抬高成功率的现象称为 "Sweet-spot Effect"。 该机制有效将不同测试者间的成功率差异压缩至可接受范围。

测试者偏差可视化
图 3:同一任务、不同类型测试者(experienced / ignorant / adaptive)导致的成功率剧烈波动。
Visual Task Reproduction 界面
图 5:Visual Task Reproduction 用户界面。参考图像半透明叠加于实时摄像头画面, 测试者须精确还原初始场景状态。

评分机制

每项任务分解为若干阶段,满分 10 分,共 10 次 rollout,总分上限 100 分。 每次重试扣除 0.5 分惩罚。基准设有 benchmark protocol(评估单一模型的稳定性) 和 comparative protocol(多模型公平排名)两种评测模式。

参赛者工作流
图 10:RoboChallenge 面向参赛者的完整工作流:本地推理 → API 调用 → 机器人执行 → 结果反馈。

03 实验

论文在 Table30 上评测了 5 种主流 VLA 实现,覆盖 Task-specific(全量任务数据训练) 与 Generalist(每任务 50 条混合训练)两种训练设置,以 Success Rate (SR) 和 Progress Score 为主要指标。

主要结果(30 任务平均)

模型 训练设置 Success Rate (%) Progress Score
π₀.₅Task-specific 43.762.2
π₀Task-specific 28.347.6
CogACT (Microsoft)Task-specific 11.721.8
π₀.₅Generalist 17.731.3
π₀Generalist 9.320.6

按任务难度标签分析

论文为 30 项任务打上难度标签,揭示 VLA 当前能力边界(所有模型平均):

难度标签 平均 Success Rate (%) 平均 Progress Score
temporal dependence(时序依赖)514
soft body(软体操作)38
multiview(多视角)521
bimanual(双臂协作)820
precise 3D localization(精细定位)1218
simple pick-and-place(简单抓放)442
全任务平均2237
任务分布可视化
图 7:Table30 任务分布。按 VLA 难度、机器人类型、场景位置、操作对象类型四个维度分别标注。
SR 与 Score 分布
图 8:各模型在所有任务上的 SR 与 Progress Score 累积分布。π₀.₅ 在高百分位段表现显著领先。

模型排行与典型任务结果

模型排行榜
图 2(右):各 baseline 模型排行榜。π₀.₅ Task-specific 以 43.7% SR 位居第一; 典型任务中 "stack bowls" 达 100% SR / 99.5 score,而 "fold dishcloth" 仅 20% SR / 24 score。

鲁棒性分析

论文验证了 VLA 对视觉扰动的鲁棒性:在输入图像上施加背景替换、遮挡等增强后, 模型输出动作几乎不变,说明 VLA 已具备一定视觉不变性, 环境光照与相机漂移等非受控因素对评测的影响在可接受范围内。

04 局限性

Note:以下局限性均为论文作者明确陈述(stated),部分作者同时指出当前未观测到负面影响。
模型诚信性无法核验(Model Integrity)

采用"用户本地推理"范式的核心代价是: "we have no means to check whether the model actually run by the user matches the user's claim." 恶意用户可替换模型或引入人工辅助(human-in-the-loop cheating),系统当前无技术手段防范。

测试集过拟合风险(Test-set Overfitting)

固定的参考图像场景存在被针对性过拟合的风险。论文指出 "There is a chance that the model submissions 'overfit' to the particular reference test cases", 但实验中目前未观测到此现象。

当前 VLA 均为单帧模型(Single-frame Models)

所有被测 VLA 均为 single-frame 推理,无法处理时序依赖任务 ("identical images may be received on different stages"), 这直接导致 temporal dependence 类任务平均成功率仅 5%,是最大能力短板之一。

低分辨率输入限制精细操作(Low Resolution: 224×224)

被测模型均工作在 224×224 低分辨率下,对精细三维定位任务(precise 3D localization) 造成显著影响,该类任务平均 SR 仅 12%。

传感器套件不完整(No Force/Torque Sensors)

为降低系统复杂度,当前平台省略了力矩传感器。论文承认这对接触丰富(contact-rich)任务 的精细操作能力有所限制,未来版本可能补充。