IEEE RA-L · 2022 · Robot Benchmark

CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

用自然语言指令驱动长序列机器人操控任务的开源仿真基准
Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard · University of Freiburg

CALVIN(Composing Actions from Language and Vision)是一个开源仿真基准,要求智能体仅凭板载传感器和无约束自然语言指令, 在不同环境中完成长序列机器人操控任务。基准在序列长度、动作空间与语言多样性上均超越现有数据集, 评估结果表明即便是最强基线方法也在此面临重大挑战,为创新型语言-视觉-动作研究提供了广阔空间。

IEEE RA-L 2022 4 训练环境 + 1 测试环境 34 操控任务 · 7-DOF 连续控制 📄 arXiv:2112.03227 PDF
language-conditioned policy long-horizon manipulation robot benchmark multi-context imitation learning zero-shot generalization 7-DOF continuous control 机器人操作 语言条件策略

01 动机

现有视觉-语言任务数据集在序列长度、动作空间复杂度和语言多样性方面均存在明显不足, 难以训练出能够在日常真实环境中与人类协作的通用机器人。如何让机器人在仅凭语言指令的条件下, 自主完成由多个子技能组合而成的长序列操控任务,是迈向通用机器人的关键挑战。

"General-purpose robots coexisting with humans in their environment must learn to relate human language to their perceptions and actions to be useful in a range of daily tasks. Moreover, they need to acquire a diverse repertoire of general-purpose skills that allow composing long-horizon tasks by following unconstrained language instructions."
CALVIN benchmark overview
Fig. 1:CALVIN 基准总览。训练阶段跨越四个环境(Env A–C 训练,Env D 零样本测试), 操控员演示包含多种语言指令,如 "move the switch to turn on the light bulb"、"push the button"、"place the red block in the slider"、"push the blue block to the left"。 最困难的评估设置要求智能体在从未见过的 Env D 中,零样本执行多步语言指令链。
34操控任务类别
7-DOF连续动作空间
400+人工采集自然语言标注
4→1训练环境 → 零样本测试环境

为什么现有基准不够用?

02 方法

CALVIN 不仅是数据集,更是一个完整的研究框架,包含仿真环境、数据采集流程、语言标注协议和评估协议。 论文同时提出一个 multi-context imitation learning(MCIL)基线模型作为出发点,供后续研究超越。

CALVIN 仿真环境

基于 PyBullet 物理引擎构建,包含一个带滑动门、按钮、LED 灯、滑块和彩色积木的桌面工作区, 由 7-DOF Franka Emika Panda 机械臂操控。环境设计在外观(纹理、颜色)和物体布局上均有变体, 支持在 4 个训练环境(Env A、B、C)和 1 个测试环境(Env D)之间的零样本泛化评估。 动作空间为笛卡尔末端执行器位移(绝对位置 3 维 + 方向 3 维 + 夹爪 1 维),控制频率 30 Hz。

CALVIN sensors and action space
Fig. 2:观察与动作空间。左表列出所有支持的传感器模态及其维度: RGB 静态相机(200×200×3)、RGB 夹爪相机(84×84)、深度相机(84×84)、触觉传感器(120×160×2)、 本体感知(末端执行器位置 3 维、方向 3 维、关节角度 7 维、夹爪动作 1 维)。 右图展示 CALVIN 支持的丰富传感器套件示意,包括固定视角、夹爪视角和深度感知。

语言标注协议

操控员(operator)在三个关键环境中远程控制机械臂完成示教(play data), 采集约 2.4 万步遥操作数据。在此基础上,自动分割出对应 34 种技能的短序列片段, 并由标注员为每个片段撰写自由形式的自然语言指令(平均每任务约 12 条同义表达)。 最终 CALVIN 数据集包含跨四个环境的多样化演示,语言指令词汇量超过 30,522, 平均句长 7.98 词,句子数量 7 词以下占多数,呈现真实人类自然语言的多样性。

CALVIN Challenge 评估协议

评估时,智能体需在无示教的情况下,依据语言指令链连续完成 1,000 条指令序列, 最多连续完成 5 个子任务(Multi-Task Long-Chain,MTLC)。 成功率以"在 1,000 条指令链中,每条平均连续完成多少步"衡量(No. Instructions in a Row)。 论文设置了三类评估难度:

MCIL 基线模型

作者基于 Lynch et al. 的 multi-context imitation learning 框架实现基线: 使用 sequence-to-sequence 变分自编码器(VAE)学习语言条件下的目标图像表征, 再训练一个 goal-conditioned 策略以闭环执行任务。 模型输入为视觉观察和语言指令,输出为连续动作; 训练数据来自跨所有环境的遥操作示教,编码器和解码器独立训练后联合微调。 评估时语言指令直接送入语言编码器(BERT/随机窗口语言),推理阶段无需示例图像。

03 实验

论文在 CALVIN Challenge 的三种难度设置下评估 MCIL 基线, 并分析不同传感器组合对性能的影响,揭示当前方法面临的核心挑战。

CALVIN results distribution
Fig. 3:任务子指令使用频率分布(1,000 条评估链)。 横轴为随机采样的 1,000 条指令链中各子任务出现次数, 展示不同任务在评估集中的频率差异,体现 CALVIN 任务分布的自然多样性。

基线结果

下表为 MCIL 基线在 CALVIN 各评估设置下的成功率(成功完成的 "No. Instructions in a Row",满分 1000)。 数字越高代表在连续指令链中完成的步数越多。

CALVIN baseline results table
Fig. 4:MCIL 基线在 CALVIN Challenge 上的完整结果。 各列对应不同传感器组合(Static Camera / Gripper Camera / RGB / Depth / Tactile), 各行对应不同评估设置(D→D 单环境;ABCD→D 多环境零样本;LH-MTLC 长序列)。 结果显示:(1) 传感器组合对性能影响显著;(2) 零样本跨环境泛化(ABCD→D)较单环境(D→D)有明显下降; (3) 随连续指令步数增加,成功率急剧下降,说明长序列任务极具挑战性。
评估设置 传感器 成功率(MTLC,34 tasks) 说明
D→D(单环境) Static RGB 35.6% 单环境内训练测试
ABCD→D(零样本) Static RGB 49.7% 多环境训练 → 新环境测试
ABCD→D(零样本) RGB + Gripper 37.3% 增加夹爪视角
LH-MTLC(长序列链) Static RGB ≈2.6% 1,000 链中完成 5 步的比例极低
关键发现: 即便是表现最好的传感器组合(Static Camera 单独),MCIL 基线在 LH-MTLC 长序列设置下成功率依然极低, 证明"将子技能组合为长序列任务"对现有 imitation learning 方法仍是开放挑战。 论文明确指出:"a baseline model based on multi-context imitation learning performs poorly on CALVIN, suggesting that there is significant room for developing innovative agents."

传感器消融

实验系统比较了 Static Camera(200×200 RGB)、Gripper Camera(84×84 RGB)、Depth、Tactile 四类传感器在不同组合下的策略性能。结果显示:

04 局限性

说明:论文在 Discussion 和 Conclusion 部分明确指出了以下局限性,以下各点均为作者明确陈述, 并附有推断标注。
仅限仿真环境,未涉及真实机器人

CALVIN 完全基于 PyBullet 仿真,尚未在真实机器人平台上验证。 仿真与现实之间的 sim-to-real gap 可能使基准上的结论难以直接迁移至实体机器人。 作者未在论文中提供真实场景验证(作者明确指出)。

基线模型性能较弱,尚无强竞争对手

论文发布时仅提供 MCIL 一种基线,且该基线在长序列任务上表现极差, 难以作为有力参照。更多竞争性方法的加入依赖社区后续跟进(作者明确指出需要社区投入)。

任务设计局限于桌面精细操控

34 种任务均聚焦于单一桌面工作区内的精细操控(推拉积木、开关灯、滑动门等), 场景多样性和任务复杂度(如多物体交互、工具使用)仍有限(从设计推断)。

语言指令来源仍有偏差

尽管通过众包收集了 400 余条自然语言标注,但标注者群体和指令风格可能存在统计偏差, 未覆盖真实人机交互中的所有表达方式(从方法推断)。

评估指标单一

当前主要以"连续完成子指令数"(No. Instructions in a Row)作为唯一核心指标, 未涵盖效率、安全性、自然性等多维度评估(从实验设计推断)。