π₀.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

01 动机 Motivation

尽管大型语言模型已展现出强大的组合泛化能力——能够将已学知识以前所未有的方式组合应用——现有机器人基础模型却在这一核心能力上严重缺失：它们往往需要对每项新任务进行专项微调，且无法在陌生环境或新形态机器人上零样本泛化。

"Prior VLA models lack robust compositional generalization and often require task-specific fine-tuning despite being trained on large datasets."

实验中使用的机器人平台 — **图 1：**实验涉及的多种机器人平台。从左至右：双臂移动操作平台（Mobile Bimanual）、静态双臂 BiPi 机器人、以及配备 Robotiq 夹爪的 UR5e 双臂系统。跨形态实验中，模型需要在这些形态差异显著的机器人之间实现零样本迁移。

作者的核心假设是：在训练时提供关于"做什么"和"怎么做"的详细上下文信息，可以消除异构数据集中的歧义，进而解锁涌现式泛化能力（emergent generalization）。这种能力使得模型能够：

在从未见过的厨房和卧室环境中，跟随开放式自然语言指令完成任务
无需专项微调，直接完成制作咖啡、折叠衣物等高度灵巧的操作任务
将在某一机器人形态上学到的技能零样本迁移到形态差异显著的目标机器人（跨形态泛化）
通过语言 coaching，在没有低层动作数据的情况下习得全新的长时序任务

~5B模型总参数量

80%跨形态灵巧折叠 T-shirt 成功率（匹配人类遥操作基线 80.6%）

85%长时序 coaching 任务成功率（π₀.6 基线约 10–20%）

70–80%Reverse Bussing 反常识任务成功率（π₀.6 基线 <20%）

02 方法 Method

π₀.7 的核心创新在于多样化上下文条件训练（diverse context conditioning）：通过在训练时同时提供子任务自然语言指令、子目标图像和 episode 元数据，使模型能够理解并利用各种质量和来源的训练数据，并在推理时通过灵活配置这些条件来引导模型行为。

π₀.7 整体架构 — **图 2：π₀.7 模型架构。**模型由三部分组成：4B 参数的 Gemma3 VLM 骨干网络（处理视觉与语言输入）、memory-style 视频历史编码器（MEM，用于记忆依赖型任务），以及 860M 参数的 flow-matching action expert（负责生成动作序列）。训练时，上下文信息包括：语言指令、子目标图像、episode 元数据（速度、质量、是否失误）和控制模式标识。

多样化提示策略 — **图 3：多样化提示（Diverse Prompting）策略示意图。**训练时的上下文由四类信息组成：子任务指令（subtask instructions）、子目标图像（subgoal images）、episode 元数据（episode metadata）和控制模式（control mode）。每类信息在训练时均以一定概率随机 dropout，确保模型在推理时能够灵活应对不同的提示组合。图中展示了折叠衬衫任务中子目标图像与元数据的组合提示示例。

核心组件 1：多模态上下文条件

训练时的上下文由四类信息构成，每类均以随机概率 dropout：

子任务指令（Subtask Instructions）：中间层语义任务描述（如 "open the fridge door"），支持逐步引导和测试时的语言 coaching。
子目标图像（Subgoal Images）：描述期望近未来场景状态的多视角视觉目标，由基于 BAGEL 初始化的轻量级 world model 生成，用于表达语言难以描述的信息。子目标图像被加入 25% 的训练样本，本身以 30% 的概率随机丢弃；训练样本中以 25% 概率采样片段端点的真实未来帧，75% 概率在 0–4 秒范围内均匀采样，并混合真实帧和生成帧以减小 train-test mismatch。
Episode 元数据（Episode Metadata）：包括整体速度（以 500 步为单位离散化）、质量评分（1–5 分）和失误标记。这些标签使模型能够理解不同质量和策略的数据来源。整体以 15% 概率完全丢弃，各子项以 5% 概率单独丢弃。
控制模式（Control Mode）：文本标识符，指定关节级或末端执行器动作模式。

核心组件 2：训练数据多样性

π₀.7 的训练数据涵盖前所未有的多样性：多种机器人平台的遥操作演示数据、包含失败和次优行为的自主推演数据、以人为中心的视频数据、以及网络非机器人数据（物体定位、VQA、文字预测、视频-语言任务）。值得注意的是，模型通过纳入 RL 专家模型的评估数据来蒸馏其行为，而无需重新采集低层动作数据。

推理配置

推理时固定配置（Algorithm 1）：控制模式始终提供；速度设为任务 episode 长度的第 15 百分位（偏快）；质量始终设为最高（5 分）；失误标记设为 false。子任务指令由高层策略或人类监督提供；子目标图像每 4 秒刷新一次或在意图改变时更新。每次推理通过 5 步去噪生成 50 步动作 chunk，执行其中 15–25 步；支持 classifier-free guidance（CFG），权重 β ∈ {1.3, 1.7, 2.2}。

03 实验 Experiments

实验评估覆盖四个核心维度：开箱即用灵巧操作性能、指令跟随能力、跨形态迁移、以及组合任务泛化，所有任务均与 π₀.5 和 π₀.6 等基线模型对比。

开箱即用灵巧操作（Out-of-the-box Dexterous Performance）

π₀.7 无需任何任务特定后训练，即可在多个高难度灵巧操作任务上与 RL 微调专家模型（π₀.6*）媲美：

灵巧操作性能对比 — **图 4：开箱即用灵巧操作性能。**上行：咖啡机制作浓缩咖啡（Espresso Making）、搭建纸箱（Box Building）、折叠衣物（Laundry Folding），比较成功率和归一化吞吐量（relative to specialist π₀.6* baseline）。下行：Robot Olympics 任务（花生酱三明治、衬衫内外翻转、导航穿门）及更多灵巧任务，使用 task progress 指标。π₀.7 在大多数任务上与或超越专家基线。

任务	π₀.6*（RL 专家）	π₀.7（本文）	备注
Espresso Making	基线	相当	归一化吞吐量对比
Laundry Folding（T-shirt & Shorts）	基线	吞吐量更高	超过 RL 专家吞吐量
Box Building	基线	吞吐量更高	原始吞吐量超基线
Reverse Bussing（反常识）	<20% success	70–80%	π₀.7 显著超越
Long-horizon Air Fryer Coaching	π₀.6: ~10–20%	~75–85%	带子目标图像可达 85%
跨形态 T-shirt 折叠（UR5e）	人类 tele-op: 80.6%	80%	匹配 10 名人类遥操作员

指令跟随（Instruction Following）

在 6 个全新环境（4 个未见过的厨房 + 2 个未见过的卧室）、14 种场景下，每场景 3–6 条开放式指令评估，π₀.7 整体成功率显著优于 π₀.5 和 π₀.6。对于包含复杂指代关系的指令（如 "pick up the fruit on the largest plate"），π₀.7 相对基线的优势更为突出；配合子目标图像（π₀.7 GC）可进一步提升。数据集偏见破解测试（"Reverse Fridge to Microwave"）中，子目标图像对成功率至关重要。

跨形态迁移（Cross-Embodiment Transfer）

**图 5：跨形态迁移结果。**左图：从简单重新排列任务到复杂跨形态灵巧操作的逐步提升（Table Setting, Bag in Backpack, Shirt Bagging 等）。右图：将折叠 T-shirt / 毛巾任务从轻型双臂机器人迁移到重型 UR5e 双臂系统。π₀.7 task progress 达 **85.6%**，success rate 达 **80%**，与 10 名受试者（平均 375 小时经验）零样本遥操作的 task progress **90.9%**、success rate **80.6%** 相当。模型还涌现出适应目标形态运动学的全新策略（如将两臂持袋改为单臂拾取，将倾斜抓取改为垂直抓取）。

组合任务泛化（Compositional Generalization）

在完全无训练数据的短时序任务上（舀米饭、转动风扇/齿轮、擦拭物体、按 French press 活塞等），π₀.7 零样本成功率达 55–75%，且语言条件与子目标图像条件性能相当。通过语言 coaching 在未见长时序任务（装载/卸载空气炸锅、制作吐司贝果）上，π₀.7 达到约 70–85% 成功率（π₀.6 约 10–20%）。进一步地，在 coaching 数据上训练高层策略后，可实现自主执行，性能仅比有人 coaching 低约 5–10%。

消融实验（Ablations）

数据质量扩展与任务多样性消融 — **图 6：数据质量与多样性消融实验。**左图：随着数据集从 top-30% 扩大到全量（平均质量下降），带元数据的 π₀.7 持续提升，无元数据版本则性能下降——表明元数据对混合质量数据的学习至关重要。右图：移除最多样化的 20% 数据导致 **15–30%** 性能下降（移除随机 20% 几乎无影响），证明任务多样性是组合泛化的关键驱动因素。

关键消融结论：

无元数据（π₀.7 no metadata）：吞吐量下降 15–30%
无评估数据（π₀.7 no eval data）：吞吐量下降 20–40%
移除最多样 20% 数据：性能下降 15–30%（随机移除无明显影响）

04 局限性 Limitations

Note: 以下局限性均由原文作者明确陈述（stated by the authors）。

未见任务/形态的成功率仍有差距（Reduced Zero-Shot Success）

未见任务和形态的成功率为 60–80%，相比分布内任务的 >90% 仍有明显差距。这表明即使是 π₀.7，在真正陌生的场景下仍无法做到完全可靠。

数据集边界模糊（Dataset Boundary Ambiguity）

随着训练数据规模和多样性极大扩展，准确区分"见过"和"未见过"的任务边界变得非常困难。某些技能可能以不同标签或作为其他任务的附带行为出现在数据中，这使得泛化声明的可靠性难以精确评估。

泛化主要依赖行为重组（Generalization via Remixing）

模型实现组合泛化的主要途径可能是重新组合已有行为，而非发现真正全新的能力。作者认为这在功能上是可接受的，但这一局限性值得在更严格的测试条件下进一步审视。

复杂长时序任务仍需详细 coaching（Task-Specific Coaching Still Required）

对于复杂的长时序任务，模型仍依赖详细的步骤级语言 coaching 或已训练好的高层策略，尚不能完全依赖粗粒度指令自主完成任务。