π₀.₅: a Vision-Language-Action Model with Open-World Generalization

01 动机

当前 VLA 模型在实验室受控场景中表现亮眼，但如何在真实的、从未见过的家庭环境中可靠执行长时域任务，仍是开放性挑战。简单堆砌机器人数据规模是不够的——泛化需要来自多个抽象层次的知识。

"In order for robots to be useful, they must perform practically relevant tasks in the real world, outside of the lab... achieving broad coverage of plausible scenarios via brute-force scaling of robot data collection is infeasible."

teaser — 图 2：π₀.₅ 在从未出现于训练数据的全新厨房中执行清洁任务。系统接收高层指令（关闭橱柜、将物品放入抽屉、擦拭污渍、将餐具放入水槽），通过预测子任务序列和输出低层动作来完成整个流程。

3全新真实家庭中完成测试

~400h移动操作机器人训练数据

~100训练环境（家庭数量）

+71%相对 π₀ 基线的任务进度提升

问题背景

Vision-Language-Action (VLA) 模型将大语言模型的语义理解能力与机器人控制相结合，展现了强大的指令跟随能力。然而，现有方法的评测大多在与训练数据分布相近的环境中进行，真正的"野外"泛化能力尚未被验证。

π₀.₅ 的核心主张是：有效的开放世界泛化需要来自多个信息源的知识迁移，包括多机器人平台的数据、网页视觉数据，以及对任务语义结构的显式建模。

02 方法

π₀.₅ 采用两阶段训练框架：首先在异构数据上进行大规模预训练，学习多抽象层次的知识；然后通过后训练阶段专门化为移动操作能力，同时引入 flow matching 实现连续动作的精细控制。

architecture — 图 3：模型整体架构与训练流程。第一阶段（预训练）融合来自移动操作机器人（MM）、多场景非移动机器人（ME）、跨平台实验室数据（CE）、高层语义子任务标注（HL）以及网页多模态数据（WD）的五类异构数据，使用 FAST 动作分词器将动作表示为离散 token。第二阶段（后训练）在最相关数据上专门化，加入 action expert 支持 flow matching 连续动作生成，并引入专家语言指令（VI）。

模型架构：高低层级分解推理

π₀.₅ 将联合分布分解为两个子问题：

高层推理（High-level inference）： π_θ(ℓ̂ | o_t, ℓ) — 给定当前观测和高层指令，预测当前应执行的语义子任务（如"pick up the plate"）
低层推理（Low-level inference）： π_θ(a_t:t+H | o_t, ℓ̂) — 以预测到的子任务为条件，生成机器人的具体动作序列

底层架构为多模态 Transformer：图像 patch、文本 token 和连续动作值统一输入；图像/提示词使用双向注意力，动作输出使用因果注意力；本征状态（proprioceptive state）被离散化为文本 token 输入。

混合动作表示与训练目标

为了同时支持大规模预训练的效率与推理时动作精度，π₀.₅ 引入混合损失：

Loss = Cross-entropy(text tokens) + α · ‖ω − a_t − f^a_θ(...)‖²

其中第一项为 FAST 离散动作 token 的交叉熵损失，第二项为 flow matching 连续动作的 L2 损失（后训练阶段 α=10.0）。这种设计使模型"既能进行快速可扩展的离散 token 预训练，又能通过 flow matching 实现高效精细的动作推理"。

五类异构训练数据

training_data — 图 4：预训练与后训练数据示例。五类数据来源：MM（移动操作机器人，~400小时，约100个家庭）、ME（多样家庭场景的非移动机器人）、CE（实验室跨平台数据，含 OXE 数据集）、HL（高层子任务语义标注）、WD（图像描述、VQA、物体定位等网页数据）。后训练阶段额外引入 VI（专家语言指令），并去除 CE 以聚焦移动操作。

第一阶段：预训练（280k steps）

MM：移动操作机器人，~400h，~100个家庭
ME：多样家庭环境中的非移动机器人数据
CE：实验室跨平台数据（含 OXE）
HL：高层子任务语义预测标注
WD：网页视觉语言数据（VQA、图像描述等）

第二阶段：后训练（80k steps）

仅使用 MM + ME 数据，聚焦移动操作
加入 action expert，启用 flow matching 连续动作（10步去噪）
引入 VI（verbal instructions）：人类专家对子任务序列的语言演示
控制频率：50 Hz；状态/动作空间：18-19 DoF

03 实验

评测分为两类：受控的"模拟房间"（mock homes）用于可复现的定量比较，以及全新真实家庭（real homes）进行最终验证。核心指标为任务完成进度（task progress）和语言跟随成功率。

real_home_eval — 图 7：真实家庭评测。在三个从未出现于训练数据的全新家庭中测试，包含新奇的厨房和卧室，每个任务进行 10 次 trial。展示了机器人执行过程的关键帧和定量成功率。

与基线的对比

模型	平均任务进度	相对提升
π₀（基线）	~35%	—
π₀-FAST+Flow	~42%	+20%
π₀.₅（本文）	~60%	+71%
在测试环境上训练的模型（上限参考）	~62%	—

训练环境数量的影响（Scaling）

env_scaling — 图 8：随训练场景数量的性能变化曲线。随着训练位置从 3 增加到 104 个，模型平均任务进度从 ~25% 稳步提升到 ~60%，接近在测试环境上直接训练的上限性能（~62%），表明训练环境的多样性是实现泛化的关键。

训练环境数量	平均任务进度
3 个	~25%
53 个	~45%
104 个	~60%
在测试家庭中训练（参考上限）	~62%

消融实验

ablation — 图 10-11：训练配方消融实验（mock homes）。分别去除不同数据源后，整体任务完成度和语言跟随性能的变化。ME 和 CE 对整体任务性能至关重要，而 WD 对分布外物体的语言跟随泛化能力有显著影响。

配置	平均任务进度	说明
完整模型	~60%	所有数据源
去除 WD（网页数据）	~58%	对整体任务影响较小
去除 ME	~45%	性能显著下降
去除 CE（跨平台数据）	~40%	性能大幅下降
去除 ME + CE	~25%	严重退化

高层推理的重要性

实验进一步验证了显式高层推理的价值：

完整 π₀.₅（显式高层推理）： ~63% 任务进度
隐式高层（有 HL 训练数据但不做显式推理）： ~58%
无高层（无推理，无 HL 训练数据）： ~40%
GPT-4 作为高层策略（oracle）： ~30%（低于预期，说明仅有语义推理不够）
人类 oracle 高层策略： ~55%

此外，移除 VI（语言指令，仅占训练数据 11%）会使性能下降到 ~50%，说明少量的专家语言指令对强性能"至关重要"。

04 局限性

Note： 以下局限性均为论文作者在 Discussion and Future Work 章节中明确陈述的内容（stated）。

特定场景中的持续性错误

作者指出："Some environments present persistent challenges (e.g., unfamiliar handles on drawers, or cabinets that are physically hard for the robot to open)." 陌生的物理结构（如特殊把手、难以打开的橱柜）仍会造成机器人持续失败，说明低层操作技能的泛化仍有瓶颈。

部分可观测性（Partial Observability）

"Some behaviors present challenges with partial observability (e.g., the robot arm occluding a spill that should be wiped)." 当机械臂遮挡了需要处理的区域时，模型难以感知和规划，揭示了视觉输入受限时的决策盲区。

高层子任务推理容易被干扰

"In some cases the high-level sub-task inference is easily distracted (e.g., closing and opening a drawer multiple times while putting away items)." 高层语义推理模块在复杂场景下可能出现循环或无效行为，说明长时域规划的稳定性仍需提升。

提示词复杂度和上下文窗口受限

模型"can accommodate relatively simple prompts"，且使用"relatively modest context"，限制了其在需要复杂多步骤规划或跨房间任务中的表现。未来工作需要探索更丰富的上下文建模能力。