NeurIPS 2023 · Datasets and Benchmarks

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

机器人终身学习中知识迁移的系统性基准
Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone  ·  UT Austin / PKU

LIBERO 是首个专注于机器人操作领域终身学习的综合性基准,包含 130 个跨越四个任务套件的操作任务,系统研究陈述性知识(概念)与程序性知识(动作)的迁移效率,并附有高质量人类遥操作演示数据。

NeurIPS 2023 130 Tasks · 4 Suites 50 Demonstrations/Task 📄 arXiv:2306.03310 Project Page
lifelong learning robot manipulation knowledge transfer continual learning benchmark policy learning procedural generation 终身学习 机器人操作 任务套件

01 动机

终身学习(Lifelong Learning)的目标是构建一个能够随时间持续学习、不断从新任务中积累并迁移知识的智能体。然而,现有研究几乎全部集中在视觉和语言领域,对机器人决策场景的专注极度缺乏,导致缺少系统性评测手段来衡量不同知识类型的迁移效率与算法性能。

"How can a robot agent effectively transfer knowledge across its lifespan in decision-making tasks?"
LIBERO论文首页
LIBERO 提出了机器人操作终身学习基准,针对陈述性知识、程序性知识及混合知识迁移设计了四个任务套件,研究五个核心问题:迁移效率、策略架构、算法有效性、任务顺序鲁棒性与预训练影响。
130操作任务总数(4 个套件)
50每个任务的人类遥操作演示
5核心研究问题(Knowledge Transfer / Architecture / Algorithm / Task Ordering / Pretraining)
程序化生成流程可创建无限任务

为什么需要 LIBERO?

机器人终身学习面临独特挑战:与视觉分类不同,操作任务需要同时处理陈述性知识(识别物体、场景等概念)和程序性知识(如何操作、抓取等动作序列)。例如,一个机器人曾学会"把苹果放进篮子",在学习新任务时,它既要记住物体概念(陈述性),又要保留操作技能(程序性)。现有终身学习基准均无法捕捉这一二元知识结构。

LIBERO四个任务套件
LIBERO 的四个任务套件(Figure 1)。从左至右:LIBERO-Spatial(空间关系变化,考察陈述性知识)、LIBERO-Object(物体种类变化)、LIBERO-Goal(目标变化,混合知识)、LIBERO-Long(长序列任务,考察程序性知识)。底部展示了不同分布偏移类型及 LIBERO-GOAL 的任务顺序变化实验。

02 方法

LIBERO 提供了完整的基准框架:程序化任务生成流程(保证任务多样性与可扩展性)、高质量演示数据、统一的评测指标体系(FWT / NBT / AUC),以及三种主流神经网络架构的全面对比。

LIBERO程序化生成流程
Figure 2:LIBERO 的程序化生成流程。① 从大型行为数据集(EgoMimic)提取 Behavioral Template,② 基于 PDDL 语言描述的任务说明(task predicates、goal specifications),③ 利用模板生成无限行为变体,④ MuJoCo 仿真环境渲染,⑤ 人工遥操作录制高质量演示数据。

四个任务套件(Task Suites)

LIBERO-Spatial

10 个任务,固定物体种类,改变空间关系(如"碗在架子的左/右侧")。主要挑战:陈述性知识迁移——智能体需记住物体位置概念。

LIBERO-Object

10 个任务,固定空间布局,改变物体种类(如不同食物)。主要挑战:陈述性知识迁移——智能体需识别新物体而不遗忘旧物体。

LIBERO-Goal

10 个任务,同一场景执行不同目标动作(如打开/关闭抽屉)。主要挑战:混合知识迁移——既需更新目标概念,又需习得新动作策略。

LIBERO-Long

10 个任务,每个任务包含多个子目标的长序列操作(平均约 90 步)。主要挑战:程序性知识迁移——习得并保留复杂动作序列。

评测指标体系

LIBERO评测指标可视化
Figure 3:LIBERO 的三个核心评测指标定义示意图。FWT(Forward Transfer)= 前向迁移效率,衡量学习新任务的速度;NBT(Negative Backward Transfer)= 负向后向迁移,衡量遗忘程度(越低越好);AUC@k = 学习曲线面积,综合衡量整体终身学习性能。

神经网络架构(Policy Architectures)

LIBERO策略网络架构
LIBERO 基准中对比的三种策略网络架构:RNN(循环神经网络,使用隐藏状态建模时序依赖)、ResNet+RNN(图像编码器 + 循环解码器)、ViT-T(Vision Transformer,使用 self-attention 处理视觉-时序信息)。语言任务描述通过 BERT 或 GPT-2 编码后注入策略网络。

Task Identifier 嵌入

实验系统性对比了四种 Task Identifier 嵌入方式:BERT(通用预训练语言模型)、GPT-2(自回归语言模型)、Task ID(one-hot 任务编号)、以及 Sentence Transformer。这些嵌入被用于将任务语义信息注入策略,帮助网络区分不同任务。

03 实验

在 LIBERO 的四个任务套件上,对比 Sequential Finetuning(ER / 无回放)、PackNet、以及多任务学习(MTL)等算法,结合 ResNet+RNN 与 PackNet 两种主要架构,系统评估 FWT、NBT 和 AUC@7 三项指标。

Q1:策略架构对不同知识迁移类型的影响

主要发现:"No single visual encoder architecture excels across all knowledge transfer types." ResNet 在大多数任务套件中优于 ViT-T,但对于以程序性知识迁移为主的 LIBERO-Long,ViT-T 表现更佳,体现了其对长序列时序建模的优势。

Policy Arch.LIBERO-Spatial (AUC@7)LIBERO-Object (AUC@7)LIBERO-Goal (AUC@7)LIBERO-Long (AUC@7)
ResNet+RNN (ER)0.84 ± 0.010.60 ± 0.020.41 ± 0.020.15 ± 0.01
ViT-T (ER)0.78 ± 0.010.48 ± 0.020.29 ± 0.010.29 ± 0.02
ResNet+RNN (MTL)0.88 ± 0.000.66 ± 0.010.52 ± 0.020.16 ± 0.01
ViT-T (MTL)0.80 ± 0.010.54 ± 0.020.36 ± 0.020.38 ± 0.03

Q2:终身学习算法对比

核心发现:"Sequential finetuning outperforms existing lifelong learning methods in forward transfer." 在 FWT 指标上,简单的 Sequential Finetuning(顺序微调)普遍优于 PackNet 等专门的终身学习算法,而 PackNet 通过网络二值化压缩有效抑制了遗忘(较低的 NBT),但以牺牲前向迁移能力为代价。

Q4:任务顺序的鲁棒性

任务顺序鲁棒性实验
Figure 4(左):ER 与 PackNet 在 LIBERO-LONG 的 50 种随机任务顺序下的 AUC@7 分布。ER 在不同顺序下波动显著大于 PackNet,说明 ER 对任务顺序更为敏感。(右):LIBERO-GOAL 下两种算法的成功率随任务序号 k 的变化,PackNet 维持相对稳定而 ER 振荡更大。

Q5:预训练对终身学习的影响

实验表明:"Naive supervised pretraining can hinder agents' performance in the subsequent LLDM." 在大规模离线数据集上进行监督式预训练后,智能体在后续 LLDM(Lifelong Learning for Decision-Making)阶段的表现反而下降,说明纯监督预训练会干扰策略在终身学习场景下的适应能力,这是一个出人意料的负面迁移现象。

Task Identifier 嵌入对比

实验对比了四种任务标识符嵌入方式(BERT / GPT-2 / Task ID / Sentence Transformer)。结果表明 BERT 和 Task ID 嵌入在大多数任务套件上表现相当甚至更优,而 Sentence Transformer 嵌入表现出对语义任务描述的更好利用,尤其是在 LIBERO-Goal 中。

04 局限性

Note: 以下局限性部分来自论文第 7 章的明确陈述(stated),部分为基于设计分析的推断(inferred)。
仿真与真实世界的差距(Sim-to-Real Gap)【inferred】

LIBERO 完全基于 MuJoCo 仿真环境,所有任务和演示均在仿真中完成。尽管提供了高质量的视觉渲染,但仿真物理特性与真实机器人操作存在显著差距(接触力学、物体材质变形等),所得结论是否可直接迁移到真实硬件仍是未解问题。

任务套件规模相对有限(Task Scale Limitation)【stated】

当前每个套件仅包含 10 个任务,总计 130 个任务。尽管程序化生成流程理论上可创建无限任务,但实际基准中的任务多样性和规模与真实终身学习场景(可能涉及数百至数千个任务)仍有差距。论文指出可通过扩展模板库来缓解此问题。

预训练负迁移的机制尚未明确【stated】

实验发现监督式预训练会降低后续终身学习性能,这一反直觉现象论文仅记录了结果("naive supervised pretraining can hinder agents' performance"),但未深入分析其内在机制——究竟是特征分布偏移、优化景观改变还是其他原因导致了这一负迁移,有待进一步研究。

算法评测范围局限于确定性策略【inferred】

LIBERO 当前评测的算法(ER、EWC、PackNet、AGEM 等)主要为判别式确定性策略,未涵盖基于扩散模型(Diffusion Policy)或能量模型的概率性策略,也未评测近年兴起的 VLA(Vision-Language-Action)大模型在终身学习设定下的表现。