ICLR 2024 · 机器人操作 · Robotics

Vision-Language Foundation Models as Effective Robot Imitators

RoboFlamingo:用开源 VLM 直接构建语言条件操作策略
Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong · ByteDance Research / Tsinghua University / SJTU / NUS

RoboFlamingo 在开源视觉-语言模型 OpenFlamingo 之上,通过解耦感知与决策、添加轻量 policy head,仅用语言标注的机器人演示数据进行模仿学习微调,便在 CALVIN 长视野操作基准上以 Avg Len 4.09 的成绩大幅超越此前最优方法(HULC,3.06),同时支持单卡 GPU 训练与推理。

ICLR 2024 CALVIN benchmark 单卡 GPU 可训练 📄 arXiv:2311.01378 Project Page
RoboFlamingo VLM for Robotics imitation learning language-conditioned manipulation CALVIN benchmark policy head OpenFlamingo zero-shot generalization

01 Motivation

视觉-语言大模型(VLM)已展现出强大的多模态理解能力,但将其直接用于机器人低层控制仍面临三大挑战:① VLM 在静态图像-文本对上预训练,难以处理视频时序观测;② VLM 输出语言 token,而机器人需要连续动作信号;③ 现有高性能方案(如 RT-2)依赖私有模型与海量数据,无法被普通研究者复用。本文提出 RoboFlamingo,探索一种低成本、开源、可单卡运行的 VLM 机器人操作方案。

"We seek a straightforward way of making use of existing vision-language models (VLMs) with simple fine-tuning on robotics data. ... RoboFlamingo can be an effective and competitive alternative to adapt VLMs to robot control."
RoboFlamingo 与现有方案对比示意图
图1:RoboFlamingo 与现有视觉-语言机器人操作方案的对比。左侧方案(如 SayCan、PaLM-E)将 VLM 用作高层规划器,输出语言技能指令;中间的 RT-2 将 VLM 与低层动作联合微调,但依赖私有模型。RoboFlamingo(右)则解耦感知与决策:Flamingo 主干负责单步视觉-语言理解,显式 policy head 负责时序历史建模与动作输出,仅在机器人演示数据上微调。
4.09Avg Len(ABCD→D,RoboFlamingo)
3.06Avg Len(ABCD→D,HULC 最优基线)
相对先前 SOTA 的性能提升
单张 GPU可完成训练与评估

02 Method

RoboFlamingo 的核心设计是感知与决策解耦:以 OpenFlamingo 作为视觉-语言主干(perception),负责在每一决策步对当前图像观测与语言指令进行单步理解;再附加一个轻量 policy head(decision-making),对历史特征进行建模并输出机器人动作。整个框架仅微调 resampler、gated cross-attention 模块与 policy head,其余参数冻结。

RoboFlamingo 框架示意图
图2:RoboFlamingo 框架总览。Flamingo backbone 由视觉编码器(ViT + perceiver resampler)和特征融合解码器(gated cross-attention + frozen LLM layers)组成,在每步将双视角图像 It、Gt 与语言指令 l 融合为视觉-语言联合嵌入 Xt。Policy head(默认为 LSTM + MLP)接收 Xt 并维护隐状态 ht,输出 7-DoF 末端位姿增量与夹爪状态。

Flamingo Backbone:视觉-语言单步理解

视觉编码器由 ViT 和 perceiver resampler 组成:ViT 将双视角图像编码为视觉 token 序列,resampler 通过可学习查询向量将 token 数从 N 压缩到 Nr,大幅降低后续计算量。特征融合解码器含 L 层交叉注意力(cross-attention)层与冻结 LLM(LLaMA / GPT-Neox / MPT)层:LLM 层参数全程冻结,仅微调 cross-attention 与 resampler 参数。每层解码器输出为视觉-语言联合嵌入,通过带可学习门控参数 α 的 gated cross-attention 控制视觉信息混入比例,保证训练稳定性。

Policy Head:历史建模与动作输出

论文测试了四种 policy head 变体:MLP w/o hist(仅当前帧)、MLP w hist(将历史帧送入视觉编码器)、GPT(显式 token 序列)和 LSTM(隐式记忆)。消融实验表明 GPT 与 LSTM 性能相近,最终选择 LSTM 作为默认配置(简洁高效)。以 LSTM 为例,policy head 对 XtL 进行 max-pooling 聚合后输入 LSTM,并通过 MLP 分别预测末端位姿增量(MSE 损失回归)与夹爪状态(BCE 分类损失)。

训练策略

  • 仅使用 CALVIN 中带语言标注的演示数据(约 2.4 万步,占全量数据的 1%)
  • 冻结 LLM 层;微调 resampler、gated cross-attention 与 policy head
  • 联合优化 MSE 末端位姿损失 + BCE 夹爪状态损失(权重 λgripper

部署灵活性(Open-loop Control)

  • 感知与决策解耦使得可以预测动作序列(stacked actions),而无需每步重新推理 VLM
  • 直接开环控制性能会下降;以跳步演示(jump step demonstration)重训后可显著缓解
  • 支持低算力平台部署,单张 GPU 即可完成训练与评估
Policy head 变体对比
图3:四种 policy head 变体的架构示意(出自论文附录):(a) MLP w/o hist,(b) MLP w hist,(c) GPT,(d) LSTM。GPT 与 LSTM 均将 Flamingo backbone 用于单帧感知,在 policy head 中独立建模时序历史信息,性能显著优于将历史送入 VLM 的 MLP w hist 方案。

03 Experiments

实验基准为 CALVIN(Composing Actions from Language and Vision):包含 34 个操作任务,评估 1000 条指令链,每条链要求机器人连续完成最多 5 步语言指令,仅当前任务成功才进入下一步。训练数据为带语言标注的演示(仅 Lang 分割,约 1% 全量数据)。主要对比基线:MCIL、HULC、RT-1。

主要结果:Avg Len(ABCD→D,5步序列)

方法 训练数据 步骤1 步骤2 步骤3 步骤4 步骤5 Avg Len
MCIL ABCD (Full) 0.3730.0270.0020.0000.0000.40
HULC ABCD (Full) 0.8890.7330.5870.4750.3833.06
HULC ABCD (Lang) 0.8920.7010.5480.4200.3352.90
RT-1 ABCD (Lang) 0.8440.6170.4380.3230.2272.45
RoboFlamingo (Ours) ABCD (Lang) 0.9640.8960.8240.7400.6604.09

零样本视觉泛化(ABC→D,跨环境)

方法 训练数据 步骤1 步骤2 步骤3 步骤4 步骤5 Avg Len
HULC ABC (Full) 0.4180.1650.0570.0190.0110.67
RT-1 ABC (Lang) 0.5330.2220.0940.0380.0130.90
RoboFlamingo (Ours) ABC (Lang) 0.8240.6190.4660.3310.2352.48

不同 VLM backbone 对比(ABCD→D,Best Avg Len)

Backbone LLM 架构 总参数 指令微调 COCO CIDEr (4-shot) VQAv2 Acc (4-shot) Best Avg Len Mean Avg Len
M-3BMPT3B77.345.83.943.81
M-3B-IFTMPT3B82.745.74.094.02
G-4BGPT-Neox4B81.849.03.673.53
G-4B-IFTGPT-Neox4B85.849.03.793.72
L-9BLLaMA9B74.344.02.792.71
M-9BMPT9B89.054.83.973.87
质量分析示例
图4:定性分析示例(出自论文 quality_ana 图):展示 RoboFlamingo 在成功与失败案例中的视觉-语言对齐情况,帮助理解模型在不同对象位置和指令措辞下的行为差异。

消融研究

消融实验主要揭示以下结论:

04 Limitations

注:论文结论部分明确指出第一点局限(作者原话);其余两点为从设计出发的推断(inferred)。
缺乏真实机器人部署验证(作者明确指出)

"Due to the lack of real-robot data, this paper does not deploy on real-world robotics." 所有实验均在 CALVIN 仿真环境中进行。作者也指出,近期大规模真实机器人数据(如 Open X-Embodiment)的出现有望解决这一问题。

语言泛化能力受 VLM 微调影响(inferred)

实验显示,在 enriched instructions(同义替换)设置下,RoboFlamingo 后续任务成功率的相对下降比 HULC 更明显。论文推断这是因为 RoboFlamingo 直接以 word token 作为输入,对同义表述更敏感;冻结 embedding 层(freeze-emb)可部分缓解,但整体语言泛化与未微调的 VLM 相比仍有差距。

开环控制性能下降问题(inferred)

直接对已训练模型执行 open-loop control(预测动作序列而不每步重新推理)会导致性能明显下降;需要用跳步演示数据(jump step demonstration)重新训练才能恢复性能,增加了部署灵活性的使用门槛。