GR-1: 大规模视频生成预训练用于视觉机器人操作

01 动机

大规模生成预训练模型（GPT、DALL-E 等）在语言和视觉领域表现出卓越的效果，但视觉机器人操作领域尚未从中受益。核心障碍在于：机器人数据量稀少、且包含图像、状态、动作、语言等多模态信息，难以直接套用通用预训练范式。

"Inspired by video prediction models that generate future images conditioned on a sequence of video frames and languages, we observe that a robot trajectory itself contains a video sequence. Therefore, video prediction models could potentially learn from internet videos and leverage the learned knowledge to predict future images and generate robot actions."

机器人轨迹本身就是一段视频序列——这一洞察使得互联网视频预训练与机器人控制形成天然对齐：预测未来帧的能力可以直接迁移为"预测未来动作"的能力。GR-1 将视频预测作为预训练代理任务，填补了大规模预训练与机器人操作之间的鸿沟。

GR-1 概览：视频预训练后微调 — **图 1：GR-1 系统概览。**左：在 Ego4D 等大规模视频数据上预训练视频预测（给定语言和历史帧，预测未来帧）。右：在机器人演示数据上微调，同时预测机器人动作和未来图像。预训练阶段积累的视觉-时序知识被高效迁移至操作任务。

94.9%CALVIN ABCD→D 单任务成功率（前最优 88.9%）

4.21CALVIN 平均连续完成任务数（前最优 3.06）

85.4%零样本未见场景（ABC→D）成功率（前最优 53.3%）

79%真实机器人已见物体搬运成功率（RT-1 仅 27%）

02 方法

GR-1 以 GPT-2 为基础，设计了统一的 token 序列格式，支持"纯视频预训练"和"机器人操作微调"两阶段。模型接受语言指令、历史观测图像和机器人状态作为输入，输出机器人动作和未来图像预测。

GR-1 编码器/解码器架构 — **图 2：GR-1 编码器与解码器结构。**语言编码器（CLIP，冻结）、图像编码器（MAE ViT，冻结）、机器人状态编码器（线性层）分别对各模态进行编码，送入 GPT Transformer。[OBS] token 解码为下一帧图像，[ACT] token 解码为机器人动作（手臂连续动作 + 夹爪二值动作）。

Token 序列设计与 Causal Attention Masking

预训练阶段，输入序列格式为：(l, o_t-h, [OBS], l, o_t-h+1, [OBS], ..., l, o_t, [OBS])，其中 l 为语言 token，o 为图像 token，[OBS] 为预测未来帧的特殊 token。

微调阶段，在每个时间步额外插入机器人状态和 [ACT] token：(l, s_t-h, o_t-h, [OBS], [ACT], ...)。所有 [ACT] 和 [OBS] token 均被 masked，使得其他 token 无法在注意力中看到它们，保持自回归预测的因果性。

两阶段训练流程

Stage 1：视频生成预训练

数据：Ego4D 数据集 800,000 段视频片段（约 800 万帧）
目标：给定语言描述和历史帧序列，预测 t+Δt 时刻的图像
损失：像素空间 MSE（参考 MAE 方法）
编码器（CLIP 文字、MAE 图像）在全程保持冻结

Stage 2：机器人操作微调

联合优化三个损失：L_finetune = L_arm + L_gripper + L_video
手臂连续动作：Smooth-L1 损失
夹爪动作（开/关）：Binary Cross Entropy
视频预测：MSE（保持预训练能力，防止灾难性遗忘）

模型规模

GPT Transformer 共 12 层、12 个注意力头、384 隐藏维度，总参数量 195M，其中仅 46M 可训练（编码器冻结）。相比语言预训练模型，GR-1 的预训练计算成本大幅降低，同时获得了强大的视觉-时序表征。

03 实验

在模拟环境 CALVIN 基准（多任务长程操作）和真实机器人（物体搬运 + 铰接体操作）上进行评测，与 RT-1、HULC、MT-R3M、MCIL 等基线对比。

CALVIN 基准测试（模拟环境）

方法	单任务成功率 (%)	平均连续任务数	设定
MCIL	13.3	0.40	ABCD→D
MT-R3M	62.9	2.08	ABCD→D
RT-1	73.8	2.45	ABCD→D
HULC	88.9	3.06	ABCD→D
GR-1（本文）	94.9	4.21	ABCD→D

零样本未见场景泛化（ABC→D）

方法	单任务成功率 (%)	平均连续任务数
HULC	53.3	0.67
GR-1（本文）	85.4	3.06

在未见过的场景（桌面颜色、物体位置均不同）中，GR-1 的成功率是 HULC 的 1.6 倍，平均连续任务数提升 4.6 倍，充分验证了视频预训练带来的泛化能力。

数据效率与语言泛化

仅使用 10% 训练数据

GR-1：77.8% 成功率，平均 2.00 任务
HULC：66.8% 成功率，平均 1.11 任务

预训练积累的先验知识在数据稀缺场景下尤为关键。

未见语言指令（GPT-4 生成同义表达）

GR-1：76.4% 成功率
HULC：71.5% 成功率

每个任务生成 50 条同义语言指令，CLIP 的语言泛化能力发挥关键作用。

真实机器人实验

任务设定	RT-1 (%)	GR-1 (%)
物体搬运（已见物体）	27	79
物体搬运（未见实例）	13	73
物体搬运（未见类别）	0	30
铰接体操作（抽屉）	35	75

视频预测可视化

视频预测结果对比 — **图 4：GR-1 视频预测效果。**绿框：真实帧（ground truth）；蓝框：GR-1 预测帧。模型能够准确预测机械臂运动轨迹和场景变化，验证了其时序理解能力。注意：对于部分被遮挡的物体，预测细节存在缺失。

消融实验

消融实验验证了预训练数据量和微调策略的重要性：移除视频预训练（从头训练）在 ABCD→D 上性能显著下降；仅使用部分 Ego4D 数据预训练同样使成功率降低。联合损失函数（L_arm + L_gripper + L_video）的设计防止了微调时的灾难性遗忘，确保视频预测能力在操作任务中持续发挥作用。

04 局限性

Note：以下局限性部分由作者在论文中直接说明，部分为从设计中合理推断（标注为 inferred）。

未见类别泛化能力有限（stated）

在真实机器人实验中，面对完全未见过类别的物体搬运任务，GR-1 成功率仅为 30%（RT-1 为 0%）。尽管相对提升显著，但绝对成功率仍较低，表明跨类别泛化仍是核心挑战。

视频预测对遮挡物体的细节缺失（stated）

论文明确指出："video prediction details may be missing (e.g., occluded objects)"。当物体被机械臂或其他物体遮挡时，未来帧预测出现细节不准确的问题，可能影响依赖精细视觉反馈的操作任务。

机器人数据量与多模态复杂性（stated）

作者在引言中指出，机器人领域面临"robot data sparsity compared to vision-language data"以及"multi-modal nature of robot data (images, states, actions, language)"两大固有挑战。GR-1 的 Ego4D 预训练方案缓解了第一个问题，但两者仍是领域级别的长期挑战。

编码器全程冻结的限制（inferred）

CLIP 文字编码器和 MAE 图像编码器在预训练和微调过程中始终保持冻结，以节省计算成本。这意味着模型无法通过端到端优化进一步适配特定机器人任务的视觉表征，对细粒度操作场景可能存在表达瓶颈。

仅在 CALVIN 及有限真实场景验证（inferred）

实验主要在 CALVIN 模拟器和单一真实机器人平台（物体搬运 + 抽屉）上开展。能否推广到更复杂的双臂操作、多步接触任务或高动态场景，尚未经过系统验证。