cs.RO · arXiv 2506.18123

RoboArena

Distributed Real-World Evaluation of Generalist Robot Policies
Pranav Atreya, Karl Pertsch, Tony Lee, Moo Jin Kim, Arhan Jain, Artur Kuramshin, Clemens Eppner, Cyrus Neary, Edward Hu, Fabio Ramos, Jonathan Tremblay, Kanav Arora, Kirsty Ellis, Luca Macesanu, Marcel Torne Villasevil, Matthew Leonard, Meedeum Cho, Ozgur Aslan, Shivin Dass, Jie Wang, William Reger, Xingfang Yuan, Xuning Yang, Abhishek Gupta, Dinesh Jayaraman, Glen Berseth, Kostas Daniilidis, Roberto Martin-Martin, Youngwoon Lee, Percy Liang, Chelsea Finn, Sergey Levine(七所机构联合)

RoboArena 借鉴语言模型评测中的 Chatbot Arena 思路,通过分布式、双盲的成对策略比较,在真实机器人上对通用策略进行可扩展评估。跨越七个机构超过 600 次成对真实机器人评测,RoboArena 的排名结果比传统集中式评测方法更准确地反映策略的真实能力。

arXiv 2025-06 7 机构联合 600+ 成对评测 · 4284 总 episode 📄 arXiv:2506.18123
机器人评测 generalist robot policy pairwise evaluation Bradley-Terry model distributed benchmark 策略排名 real-world robotics crowdsourced evaluation

01 动机 · Motivation

现有机器人评测范式要求对任务和环境进行严格标准化,难以全面衡量具备广泛能力的通用机器人策略。随着机器人策略越来越"通用",标准化评测反而成为瓶颈——任务覆盖窄、场景固定、无法反映真实部署多样性。

"Tightly standardized sets of environments and tasks are not well-suited to provide comprehensive performance evaluations for policies designed for broad capability."
RoboArena 总览
图1:RoboArena 框架总览。分布在多个机构的评测者各自选择任务和场景,对两个策略进行双盲成对评测,汇总偏好反馈后通过 Bradley-Terry 模型导出全局策略排名。与集中式方法不同,此框架无需标准化环境,天然覆盖真实世界的多样性。
4284总 evaluation episodes
600+成对双盲比较 episodes
7参与机构数
94.6%VLM 任务分类准确率(448 样本)

02 方法 · Method

RoboArena 将评测分为三个核心模块:分布式评测协议(双盲成对实验)、任务感知排名算法(扩展 Bradley-Terry 模型)、定性分析流水线(VLM + LLM 自动生成策略特征报告)。

系统架构
图4:RoboArena 系统架构。由策略推理服务器(policy inference servers)、评测客户端(evaluation clients)、评测数据库(evaluation database)和中央评测服务器(central evaluation server)组成。评测者从中央服务器请求策略对,在本地场景中依次执行两个策略,并提交三类反馈:连续进度分(progress score ∈ [0…100])、二元偏好标签(binary preference label)和自由文本解释(free-form explanation)。

双盲分布式评测协议

评测者在自选的场景和任务中对两个匿名策略(πA 和 πB)依次执行 rollout,双盲设计防止评测者对特定策略产生偏见。反馈包含三个维度:连续进度分、二元偏好以及自由文本说明,三种信号相互印证,提升排名可靠性。

任务感知 Bradley-Terry 排名算法

标准 Bradley-Terry 模型仅建模策略绝对能力,忽略任务难度差异。RoboArena 引入三类参数:策略对数能力 θ、任务难度 τ、以及策略-任务偏置 ψ,将胜出概率建模为:

"p(πA > πB) = ∑t=1T νt · σ(θA + ψAt − τt) · (1 − σ(θB + ψBt − τt))"

参数通过近似最大似然期望最大化(approximate maximum likelihood expectation-maximization, EM)算法拟合,能够在样本稀疏时显著提升排名质量。

定性分析流水线
图2:定性分析流水线。使用视觉语言模型(VLM)对评测场景和任务进行分类,再用大语言模型(LLM)跨评测 rollout 聚合信息,最终自动生成每个策略的特征报告,辅助研究者理解策略的优势和薄弱环节。VLM 任务分类在 448 个样本上达到 94.6% 准确率。

策略池与硬件平台

本次评测以 DROID 平台(Franka 机械臂 + Robotiq 夹爪 + 双目相机)为基础,评测七个通用策略变体,涵盖 π0-flow、π0-FAST、PG-flow、PG-FAST、PG-FAST+、PG-FSQ、PG-Bin,系统性覆盖了不同 action tokenization 和 flow matching 配置。

03 实验 · Experiments

在七所机构收集共 4284 个 evaluation episodes,其中超过 600 个为成对双盲对比。将 Oracle 排名(由全量 episode 得出)作为参考标准,与传统集中式方法和多种排名算法对比。

排名相关性对比
图6:RoboArena 排名与 Oracle 排名的相关性。任务感知 Bradley-Terry 排名(RoboArena)与 Oracle 的 Kendall-τ 相关性显著高于传统集中式评测方法;MMRV(Mean Maximum Rank Violation)指标同样支持任务感知方法优于普通 Bradley-Terry 和简单平均成功率等基线。
排名方法与 Oracle 相关性MMRV ↓
传统集中式评测(平均成功率)较低较高
Elo 在线更新中等中等
Bradley-Terry(标准)中等中等
RoboArena(任务感知 BT)最高最低
样本效率
图7:样本效率分析。RoboArena 在仅进行约 100 次成对比较后即收敛到高质量排名,与需要相同 episode 数量的传统评测方法相当,展示了分布式成对评测在样本效率上的显著优势。

定性分析验证

对 LLM 自动生成的策略报告进行人工校验:对于报告中声称"π0-FAST-DROID 优于、持平或劣于其他策略"的大多数类别,这些结论均与评测数据中的实际胜率一致,证明了定性分析流水线的可靠性。

消融实验

实验对比了四种排名算法(Elo、标准 Bradley-Terry MLE、基于进度分的 PROG 排名、任务感知 Bradley-Terry),发现任务感知扩展在各指标上均优于其他变体;进度分排名(PROG)也有一定效果,但精细程度不及任务感知方法。

04 局限性 · Limitations

Note: 以下局限性均为论文作者明确陈述(stated by the authors)。
跨平台/跨体态扩展(Cross-embodiment)

当前评测集中在 DROID 平台(Franka 机械臂),尚未覆盖跨体态通用策略。作者将跨平台扩展列为未来工作。

难以隔离变量(Controlled Experimentation)

去中心化设计使"单变量对照实验"变得困难——不同机构使用不同场景和任务,无法像集中式评测那样精确控制实验条件。

对抗性评测者鲁棒性未验证(Adversarial Evaluators)

作者坦言"尚未研究该系统对故意对抗性评测者的鲁棒性(have not investigated its robustness to intentionally adversarial evaluators)",系统在恶意操纵下的表现有待进一步分析。

Goodhart 定律风险(Over-optimization)

当评测指标本身成为优化目标时,它可能不再是真实能力的良好代理("a measure ceases to be a good measure when it becomes a target")。作者认为当前策略性能有限使得过度优化不太可能,但随着策略能力提升,这一风险会增大。