cs.RO · arXiv 2025

Gemini Robotics: Bringing AI into the Physical World

基于 Gemini 2.0 的通用 Vision-Language-Action 模型——从具身推理到灵巧操作
Gemini Robotics Team, Google DeepMind(118 位作者)

本文提出 Gemini Robotics 模型体系:以 Gemini 2.0 为基础,构建具备空间-时序推理能力的 Gemini Robotics-ER(Embodied Reasoning),并在此之上训练面向真实机器人操作的 VLA 主干网络 Gemini Robotics,支持零样本控制、快速迁移与新机体适应,端到端延迟约 250ms、控制频率 50Hz。

arXiv 2503.20020 ALOHA 2 机器人平台 提交日期:2025年3月 📄 arXiv:2503.20020 PDF 全文
VLA 具身智能 robot manipulation Vision-Language-Action embodied reasoning dexterous manipulation zero-shot control fast adaptation

01 动机

现有机器人基础模型普遍缺乏对物理世界的几何与时序理解,难以在多样化环境中完成灵巧操作;同时,现有 VLA 模型在零样本泛化与快速适配新机体方面存在明显瓶颈。Gemini Robotics 旨在以统一的多模态大模型为核心,将强大的语言推理能力延伸至物理世界。

"We present Gemini Robotics, an advanced Vision-Language-Action (VLA) generalist model capable of directly controlling robots to execute complex manipulation tasks while remaining robust to object variations, environmental changes, and natural language variations."
Gemini Robotics 模型体系总览
图 1:Gemini Robotics 模型体系总览。以 Gemini 2.0 为基础,通过具身推理训练得到 Gemini Robotics-ER(VLM),再蒸馏为带本地 action decoder 的 VLA 主干网络 Gemini Robotics,进一步专项化实现长时域灵巧操作、增强推理与快速适配。
53%Gemini Robotics-ER 在 ALOHA 2 仿真任务平均零样本成功率
100%午餐盒整理专项任务成功率
≥70%8 个快速适配任务中 7 个,≤100 次演示达到的成功率
250ms端到端控制延迟(50Hz 控制频率)

02 方法

Gemini Robotics 体系由两个互补的模型构成:负责具身推理的 Gemini Robotics-ER,以及直接输出机器人动作的 VLA 模型 Gemini Robotics。两者共享 Gemini 2.0 基础,分别针对感知理解与实时控制进行训练。

Gemini Robotics VLA 架构图
图 14:Gemini Robotics VLA 架构。云端 VLA backbone(Gemini Robotics-ER 的蒸馏版本)接收图像与自然语言指令,输出传至运行在机器人机载计算机上的本地 action decoder,产生以 50Hz 频率执行的 action chunks。查询到响应的延迟从数秒压缩至 160ms 以内。

Gemini Robotics-ER:具身推理增强

Gemini Robotics-ER(Embodied Reasoning)在 Gemini 2.0 基础上,通过专项训练使模型获得对物理世界丰富几何与时序细节的理解。具体能力包括:

为评估具身推理能力,作者构建了 ERQA(Embodied Reasoning QA) benchmark:400 道多选题,涵盖 spatial reasoning、trajectory reasoning、action reasoning、state estimation、multi-view reasoning 等类别,其中 28% 包含多张图像。

Gemini Robotics-ER 具身推理能力示例
图 2:Gemini Robotics-ER 的具身推理能力展示。从左至右:2D 目标检测、基于语言的 affordance pointing、2D 轨迹预测、多视角三维对应关系识别。

Gemini Robotics:VLA 主干 + 本地 Action Decoder

Gemini Robotics 采用云端-边端协同的两段式架构。云端运行 Gemini Robotics-ER 的蒸馏版本作为 backbone,机载计算机运行轻量 action decoder,实现实时控制:

专项化与新机体适配

通过任务专项数据集(每个长时域任务约 2000–5000 条演示),Gemini Robotics 实现了午餐盒整理、折纸等高灵巧任务,成功率达 100%。对于 bi-arm Franka 机器人与 Apollo 人形机器人(Apptronik)等新机体,只需少量迁移数据即可适配,bi-arm Franka 平均成功率约 63%。

03 实验

实验在 ALOHA 2 仿真与真实机器人上展开,对比基线包括 GPT-4o、Claude 3.5、π₀ 等;评测维度涵盖零样本控制、少样本快速适配、语言泛化与视觉泛化。

ERQA Benchmark — 具身推理能力

模型ERQA 准确率ERQA + CoT
Claude 3.535.5%
GPT-4o47.0%
Gemini 2.0 Flash46.3%
Gemini 2.0 Pro Experimental48.3%54.8%

零样本机器人控制(ALOHA 2 仿真)

Gemini Robotics-ER 通过代码生成实现零样本机器人控制,Gemini 2.0 Flash 平均成功率 27%,Gemini Robotics-ER 平均 53%:

任务Gemini 2.0 FlashGemini Robotics-ER
Banana Lift86%
Banana in Bowl84%
Mug on Plate72%
Bowl on Rack60%
Banana Handover54%
Fruit Bowl16%
Pack Toy0%
平均27%53%

泛化性能

泛化实验结果
图 20:Gemini Robotics 在视觉变化(背景、光照)、指令变化(语言表述)与动作变化等多个泛化维度上的成功率,持续优于各基线。

长时域灵巧操作与快速适配

长时域灵巧操作
图 22:长时域灵巧任务示例,包括折纸与午餐盒整理。经过专项化训练后,午餐盒整理任务成功率达 100%。

快速适配实验(Section 4.3)表明,在 8 个任务中有 7 个使用不超过 100 条演示即达到 70% 以上成功率(等价于 15 分钟至 1 小时的数据采集),其中两个任务达到 100% 成功率。

3D 感知(SUN-RGBD 基准)

Gemini Robotics-ER 在 3D Detection 上达到 48.3 AP@15,超越专项化模型。

04 局限性

说明:以下局限性来源于论文正文的明确陈述(stated)。
零样本灵巧操作成功率有限

论文明确指出:"For tasks that require dexterous motions, the zero-shot success rate is not high"(Table 6 caption)。Gemini Robotics-ER 在真实机器人上进行折叠衣物(dress folding)等高灵巧任务时,零样本成功率显著低于简单抓取任务;Pack Toy 任务在仿真中零样本成功率为 0%。

VLM 与实时控制之间存在固有鸿沟

论文指出:"As a VLM, there are inherent limitations for robot control, especially for more dexterous tasks, due to the intermediate steps needed to connect the model's innate embodied reasoning capabilities to robotic actions."即便 Gemini Robotics-ER 具备较强的具身推理能力,将其与精确的关节-级别运动控制衔接仍需复杂中间步骤。

长时域任务依赖大规模专项数据集

午餐盒整理等高难度长时域任务需要 2000–5000 条演示进行专项化微调,数据采集成本较高,难以快速推广到任意新任务。

仿真与真实环境存在 sim-to-real 差距

香蕉递接(banana handover)任务在仿真中成功率为 54%,在真实机器人上因"calibration imperfections and other sources of noise"性能进一步下降。