机器人 · Robotics · 2026

π₀.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

首个在灵巧操作、指令跟随与跨形态泛化上同时媲美专家模型的通用机器人基础模型
Physical Intelligence(含 Chelsea Finn, Sergey Levine, Karl Pertsch, Allen Z. Ren 等 87 位作者)· arXiv 2026

π₀.7 是一个约 50 亿参数的 vision-language-action 模型,通过在训练时引入多样化上下文条件——包括子任务自然语言指令、子目标图像和 episode 元数据(速度、质量评分、是否失误)——使模型能够消歧异构数据集,并涌现出组合泛化能力。其在无需任务特定微调的情况下,在折叠衣物、制作咖啡、跨形态灵巧操作等高难度任务上与 RL 专家模型持平或更优。

~5B 参数 Gemma3 VLM + Flow Matching Action Expert arXiv: 2604.15483 📄 arXiv:2604.15483 🌐 项目主页 / Project Page
robotic foundation model VLA flow matching cross-embodiment 组合泛化 diverse context conditioning 机器人操作 vision-language-action

01 动机 Motivation

尽管大型语言模型已展现出强大的组合泛化能力——能够将已学知识以前所未有的方式组合应用——现有机器人基础模型却在这一核心能力上严重缺失:它们往往需要对每项新任务进行专项微调,且无法在陌生环境或新形态机器人上零样本泛化。

"Prior VLA models lack robust compositional generalization and often require task-specific fine-tuning despite being trained on large datasets."
实验中使用的机器人平台
图 1:实验涉及的多种机器人平台。从左至右:双臂移动操作平台(Mobile Bimanual)、静态双臂 BiPi 机器人、以及配备 Robotiq 夹爪的 UR5e 双臂系统。跨形态实验中,模型需要在这些形态差异显著的机器人之间实现零样本迁移。

作者的核心假设是:在训练时提供关于"做什么"和"怎么做"的详细上下文信息,可以消除异构数据集中的歧义,进而解锁涌现式泛化能力(emergent generalization)。这种能力使得模型能够:

~5B模型总参数量
80%跨形态灵巧折叠 T-shirt 成功率(匹配人类遥操作基线 80.6%)
85%长时序 coaching 任务成功率(π₀.6 基线约 10–20%)
70–80%Reverse Bussing 反常识任务成功率(π₀.6 基线 <20%)

02 方法 Method

π₀.7 的核心创新在于多样化上下文条件训练(diverse context conditioning):通过在训练时同时提供子任务自然语言指令、子目标图像和 episode 元数据,使模型能够理解并利用各种质量和来源的训练数据,并在推理时通过灵活配置这些条件来引导模型行为。

π₀.7 整体架构
图 2:π₀.7 模型架构。模型由三部分组成:4B 参数的 Gemma3 VLM 骨干网络(处理视觉与语言输入)、memory-style 视频历史编码器(MEM,用于记忆依赖型任务),以及 860M 参数的 flow-matching action expert(负责生成动作序列)。训练时,上下文信息包括:语言指令、子目标图像、episode 元数据(速度、质量、是否失误)和控制模式标识。
多样化提示策略
图 3:多样化提示(Diverse Prompting)策略示意图。训练时的上下文由四类信息组成:子任务指令(subtask instructions)、子目标图像(subgoal images)、episode 元数据(episode metadata)和控制模式(control mode)。每类信息在训练时均以一定概率随机 dropout,确保模型在推理时能够灵活应对不同的提示组合。图中展示了折叠衬衫任务中子目标图像与元数据的组合提示示例。

核心组件 1:多模态上下文条件

训练时的上下文由四类信息构成,每类均以随机概率 dropout:

核心组件 2:训练数据多样性

π₀.7 的训练数据涵盖前所未有的多样性:多种机器人平台的遥操作演示数据、包含失败和次优行为的自主推演数据、以人为中心的视频数据、以及网络非机器人数据(物体定位、VQA、文字预测、视频-语言任务)。值得注意的是,模型通过纳入 RL 专家模型的评估数据来蒸馏其行为,而无需重新采集低层动作数据。

推理配置

推理时固定配置(Algorithm 1):控制模式始终提供;速度设为任务 episode 长度的第 15 百分位(偏快);质量始终设为最高(5 分);失误标记设为 false。子任务指令由高层策略或人类监督提供;子目标图像每 4 秒刷新一次或在意图改变时更新。每次推理通过 5 步去噪生成 50 步动作 chunk,执行其中 15–25 步;支持 classifier-free guidance(CFG),权重 β ∈ {1.3, 1.7, 2.2}。

03 实验 Experiments

实验评估覆盖四个核心维度:开箱即用灵巧操作性能、指令跟随能力、跨形态迁移、以及组合任务泛化,所有任务均与 π₀.5 和 π₀.6 等基线模型对比。

开箱即用灵巧操作(Out-of-the-box Dexterous Performance)

π₀.7 无需任何任务特定后训练,即可在多个高难度灵巧操作任务上与 RL 微调专家模型(π₀.6*)媲美:

灵巧操作性能对比
图 4:开箱即用灵巧操作性能。上行:咖啡机制作浓缩咖啡(Espresso Making)、搭建纸箱(Box Building)、折叠衣物(Laundry Folding),比较成功率和归一化吞吐量(relative to specialist π₀.6* baseline)。下行:Robot Olympics 任务(花生酱三明治、衬衫内外翻转、导航穿门)及更多灵巧任务,使用 task progress 指标。π₀.7 在大多数任务上与或超越专家基线。
任务π₀.6*(RL 专家)π₀.7(本文)备注
Espresso Making基线相当归一化吞吐量对比
Laundry Folding(T-shirt & Shorts)基线吞吐量更高超过 RL 专家吞吐量
Box Building基线吞吐量更高原始吞吐量超基线
Reverse Bussing(反常识)<20% success70–80%π₀.7 显著超越
Long-horizon Air Fryer Coachingπ₀.6: ~10–20%~75–85%带子目标图像可达 85%
跨形态 T-shirt 折叠(UR5e)人类 tele-op: 80.6%80%匹配 10 名人类遥操作员

指令跟随(Instruction Following)

在 6 个全新环境(4 个未见过的厨房 + 2 个未见过的卧室)、14 种场景下,每场景 3–6 条开放式指令评估,π₀.7 整体成功率显著优于 π₀.5 和 π₀.6。对于包含复杂指代关系的指令(如 "pick up the fruit on the largest plate"),π₀.7 相对基线的优势更为突出;配合子目标图像(π₀.7 GC)可进一步提升。数据集偏见破解测试("Reverse Fridge to Microwave")中,子目标图像对成功率至关重要。

跨形态迁移(Cross-Embodiment Transfer)

跨形态迁移结果
图 5:跨形态迁移结果。左图:从简单重新排列任务到复杂跨形态灵巧操作的逐步提升(Table Setting, Bag in Backpack, Shirt Bagging 等)。右图:将折叠 T-shirt / 毛巾任务从轻型双臂机器人迁移到重型 UR5e 双臂系统。π₀.7 task progress 达 85.6%,success rate 达 80%,与 10 名受试者(平均 375 小时经验)零样本遥操作的 task progress 90.9%、success rate 80.6% 相当。模型还涌现出适应目标形态运动学的全新策略(如将两臂持袋改为单臂拾取,将倾斜抓取改为垂直抓取)。

组合任务泛化(Compositional Generalization)

在完全无训练数据的短时序任务上(舀米饭、转动风扇/齿轮、擦拭物体、按 French press 活塞等),π₀.7 零样本成功率达 55–75%,且语言条件与子目标图像条件性能相当。通过语言 coaching 在未见长时序任务(装载/卸载空气炸锅、制作吐司贝果)上,π₀.7 达到约 70–85% 成功率(π₀.6 约 10–20%)。进一步地,在 coaching 数据上训练高层策略后,可实现自主执行,性能仅比有人 coaching 低约 5–10%。

消融实验(Ablations)

数据质量扩展与任务多样性消融
图 6:数据质量与多样性消融实验。左图:随着数据集从 top-30% 扩大到全量(平均质量下降),带元数据的 π₀.7 持续提升,无元数据版本则性能下降——表明元数据对混合质量数据的学习至关重要。右图:移除最多样化的 20% 数据导致 15–30% 性能下降(移除随机 20% 几乎无影响),证明任务多样性是组合泛化的关键驱动因素。

关键消融结论:

04 局限性 Limitations

Note: 以下局限性均由原文作者明确陈述(stated by the authors)。
未见任务/形态的成功率仍有差距(Reduced Zero-Shot Success)

未见任务和形态的成功率为 60–80%,相比分布内任务的 >90% 仍有明显差距。这表明即使是 π₀.7,在真正陌生的场景下仍无法做到完全可靠。

数据集边界模糊(Dataset Boundary Ambiguity)

随着训练数据规模和多样性极大扩展,准确区分"见过"和"未见过"的任务边界变得非常困难。某些技能可能以不同标签或作为其他任务的附带行为出现在数据中,这使得泛化声明的可靠性难以精确评估。

泛化主要依赖行为重组(Generalization via Remixing)

模型实现组合泛化的主要途径可能是重新组合已有行为,而非发现真正全新的能力。作者认为这在功能上是可接受的,但这一局限性值得在更严格的测试条件下进一步审视。

复杂长时序任务仍需详细 coaching(Task-Specific Coaching Still Required)

对于复杂的长时序任务,模型仍依赖详细的步骤级语言 coaching 或已训练好的高层策略,尚不能完全依赖粗粒度指令自主完成任务。