RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies

01 动机 · Motivation

现有机器人评测范式要求对任务和环境进行严格标准化，难以全面衡量具备广泛能力的通用机器人策略。随着机器人策略越来越"通用"，标准化评测反而成为瓶颈——任务覆盖窄、场景固定、无法反映真实部署多样性。

"Tightly standardized sets of environments and tasks are not well-suited to provide comprehensive performance evaluations for policies designed for broad capability."

RoboArena 总览 — 图1：RoboArena 框架总览。分布在多个机构的评测者各自选择任务和场景，对两个策略进行双盲成对评测，汇总偏好反馈后通过 Bradley-Terry 模型导出全局策略排名。与集中式方法不同，此框架无需标准化环境，天然覆盖真实世界的多样性。

4284总 evaluation episodes

600+成对双盲比较 episodes

7参与机构数

94.6%VLM 任务分类准确率（448 样本）

02 方法 · Method

RoboArena 将评测分为三个核心模块：分布式评测协议（双盲成对实验）、任务感知排名算法（扩展 Bradley-Terry 模型）、定性分析流水线（VLM + LLM 自动生成策略特征报告）。

图4：RoboArena 系统架构。由策略推理服务器（policy inference servers）、评测客户端（evaluation clients）、评测数据库（evaluation database）和中央评测服务器（central evaluation server）组成。评测者从中央服务器请求策略对，在本地场景中依次执行两个策略，并提交三类反馈：连续进度分（progress score ∈ [0…100]）、二元偏好标签（binary preference label）和自由文本解释（free-form explanation）。

双盲分布式评测协议

评测者在自选的场景和任务中对两个匿名策略（πA 和 πB）依次执行 rollout，双盲设计防止评测者对特定策略产生偏见。反馈包含三个维度：连续进度分、二元偏好以及自由文本说明，三种信号相互印证，提升排名可靠性。

任务感知 Bradley-Terry 排名算法

标准 Bradley-Terry 模型仅建模策略绝对能力，忽略任务难度差异。RoboArena 引入三类参数：策略对数能力 θ、任务难度 τ、以及策略-任务偏置 ψ，将胜出概率建模为：

"p(πA > πB) = ∑_t=1^T ν_t · σ(θ_A + ψ_At − τ_t) · (1 − σ(θ_B + ψ_Bt − τ_t))"

参数通过近似最大似然期望最大化（approximate maximum likelihood expectation-maximization, EM）算法拟合，能够在样本稀疏时显著提升排名质量。

图2：定性分析流水线。使用视觉语言模型（VLM）对评测场景和任务进行分类，再用大语言模型（LLM）跨评测 rollout 聚合信息，最终自动生成每个策略的特征报告，辅助研究者理解策略的优势和薄弱环节。VLM 任务分类在 448 个样本上达到 94.6% 准确率。

策略池与硬件平台

本次评测以 DROID 平台（Franka 机械臂 + Robotiq 夹爪 + 双目相机）为基础，评测七个通用策略变体，涵盖 π0-flow、π0-FAST、PG-flow、PG-FAST、PG-FAST+、PG-FSQ、PG-Bin，系统性覆盖了不同 action tokenization 和 flow matching 配置。

03 实验 · Experiments

在七所机构收集共 4284 个 evaluation episodes，其中超过 600 个为成对双盲对比。将 Oracle 排名（由全量 episode 得出）作为参考标准，与传统集中式方法和多种排名算法对比。

排名相关性对比 — 图6：RoboArena 排名与 Oracle 排名的相关性。任务感知 Bradley-Terry 排名（RoboArena）与 Oracle 的 Kendall-τ 相关性显著高于传统集中式评测方法；MMRV（Mean Maximum Rank Violation）指标同样支持任务感知方法优于普通 Bradley-Terry 和简单平均成功率等基线。

排名方法	与 Oracle 相关性	MMRV ↓
传统集中式评测（平均成功率）	较低	较高
Elo 在线更新	中等	中等
Bradley-Terry（标准）	中等	中等
RoboArena（任务感知 BT）	最高	最低

图7：样本效率分析。RoboArena 在仅进行约 100 次成对比较后即收敛到高质量排名，与需要相同 episode 数量的传统评测方法相当，展示了分布式成对评测在样本效率上的显著优势。

定性分析验证

对 LLM 自动生成的策略报告进行人工校验：对于报告中声称"π0-FAST-DROID 优于、持平或劣于其他策略"的大多数类别，这些结论均与评测数据中的实际胜率一致，证明了定性分析流水线的可靠性。

消融实验

实验对比了四种排名算法（Elo、标准 Bradley-Terry MLE、基于进度分的 PROG 排名、任务感知 Bradley-Terry），发现任务感知扩展在各指标上均优于其他变体；进度分排名（PROG）也有一定效果，但精细程度不及任务感知方法。

04 局限性 · Limitations

Note: 以下局限性均为论文作者明确陈述（stated by the authors）。

跨平台/跨体态扩展（Cross-embodiment）

当前评测集中在 DROID 平台（Franka 机械臂），尚未覆盖跨体态通用策略。作者将跨平台扩展列为未来工作。

难以隔离变量（Controlled Experimentation）

去中心化设计使"单变量对照实验"变得困难——不同机构使用不同场景和任务，无法像集中式评测那样精确控制实验条件。

对抗性评测者鲁棒性未验证（Adversarial Evaluators）

作者坦言"尚未研究该系统对故意对抗性评测者的鲁棒性（have not investigated its robustness to intentionally adversarial evaluators）"，系统在恶意操纵下的表现有待进一步分析。

Goodhart 定律风险（Over-optimization）

当评测指标本身成为优化目标时，它可能不再是真实能力的良好代理（"a measure ceases to be a good measure when it becomes a target"）。作者认为当前策略性能有限使得过度优化不太可能，但随着策略能力提升，这一风险会增大。