PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

01 动机 · Motivation

现有大型 VLA 模型参数量动辄数十亿，难以在算力受限的边缘设备上部署。与此同时，仅靠模仿学习训练的小型模型严重缺乏对空间关系、操作意图和几何结构的理解，在扰动场景下泛化能力尤为不足。如何在保持轻量化的同时，赋予 VLA 模型足够丰富的 world knowledge？

"We collect and curate a large-scale embodied multimodal dataset of approximately 2.4 million entries to pre-train a tiny-scale embodied vision-language model… introduce a novel method for learning manipulation-relevant representations, featuring multi-view consistent learning of the manipulation targets and geometric alignment."

PokeVLA teaser figure — 图 1：PokeVLA 在 LIBERO 系列基准与真实机器人任务上的成功率对比。PokeVLA 以 1.22B 参数取得 LIBERO 98.2%、LIBERO-Plus transfer 79.3% 的成绩，并在 8 项真实机器人任务中达到 81.25% 的平均成功率。

1.22B模型参数量（轻量）

98.2%LIBERO 总成功率

79.3%LIBERO-Plus Transfer 成功率

81.25%真实机器人平均成功率

传统 VLA 模型要么体量巨大（如 OpenVLA 7B），要么缺乏场景理解能力。PokeVLA 瞄准一个关键问题：即便是 0.5B 语言骨干，只要配合充分的 embodied 先验预训练和精心设计的操作相关表征注入，就能在模拟和真实世界中实现可靠、鲁棒的机器人操作。

02 方法 · Method

PokeVLA 采用两阶段训练范式：第一阶段在大规模具身多模态数据集上预训练出 PokeVLM；第二阶段通过目标感知语义分割（Goal-Aware Segmentation）与几何对齐（Geometry Alignment）将操作相关的表征注入到动作头中。

图 2：PokeVLA 系统总览。左图为第一阶段 VLM 预训练（PokeVLM），右图为第二阶段 VL-Action 后训练，引入目标感知分割与几何对齐，并以 cross-attention 动作头生成动作序列。

第一阶段：PokeVLM 预训练

以 Prismatic-VLM 为骨架，语言模型选用 Qwen2.5-0.5B，视觉编码器为 SigLIP（语义）+ DinoV2（空间感知）双组件，通过 MLP projector 桥接视觉与语言空间。预训练数据集共约 2.4M 条，覆盖四类具身任务：

General Understanding：665K 条，来自 LLaVA-Instruct-665K
Spatial Grounding：694K 条，来自 RoboPoint、RefSpatial、RoboRefit、RoboSpatial
Affordance Learning：553K 条，来自 HOVA（Ego4D、Epic100）和 MolmoAct
Embodied Reasoning：511K 条，来自 RefSpatial 和 Cosmos-Reason1-SFT

训练配置：AdamW 优化器，学习率 2e-5，batch size 128（8 卡 × 4 per-GPU × 4 梯度累积），线性 warmup（3% steps）+ cosine decay，共训练 2 个 epoch。

PokeVLA 后训练架构 — 图 3：VL-Action 后训练架构细节。左侧为目标感知分割的 coarse-to-fine 解码流程（基于 SAM），右侧为几何对齐模块（VGGT 特征蒸馏，仅训练时使用），中间的 cross-attention 动作头融合视觉隐状态、<SEG> embedding 与机器人状态。

目标感知语义分割（Goal-Aware Segmentation）

借鉴 LISA 的设计，在语言模型中引入特殊 token <SEG>，其 embedding 整合了场景上下文与目标物体细节。解码采用 coarse-to-fine 两步范式：

Coarse Decoding：将 <SEG> embedding 通过 SAM prompt encoder，获得 sparse/dense embeddings，经粗粒度 mask decoder 得到初步掩码；
Fine-Grained Decoding：以粗掩码 logits 作为 mask prompt 输入，结合 <SEG> embedding 进一步细化预测。

分割损失为 focal loss 与 KL divergence 之和：L_seg = λ_focal FOCAL(M̂,M) + λ_KLD KLD(M̂,M)，其中 λ_focal = λ_KLD = 1。多视角一致性通过跨视角共享 <SEG> embedding 保证，使模型对操作目标形成稳定的跨视角表征。

目标感知分割一致性 — 图 4：在长时序任务中，目标感知分割在不同视角之间保持一致性，确保 `<SEG>` embedding 始终指向正确的操作目标。

几何对齐（Geometry Alignment）

利用 VGGT（视觉几何基础模型）在训练阶段提取多视角图像的几何特征，通过余弦相似度损失将语言模型视觉 token 的隐状态对齐到 VGGT 特征空间：

L_geo = (1/VN) ∑[1 − cos(P(h_v), f_geo)]

几何对齐仅在训练阶段使用 VGGT，推理时无额外开销。轻量级 projector 负责维度对齐。整体训练目标为：

L = L_action + λ_seg L_seg + λ_geo L_geo

其中 λ_seg = 0.2，λ_geo = 0.4。

动作头（Action Head）

采用含 L 个 transformer 层的 cross-attention 动作头，依次对动作 latent 进行：自注意力 → 与 query embedding 及机器人状态做 cross-attention → 与视觉隐状态做 cross-attention → 与 <SEG> embedding 做 cross-attention，最终通过 LayerNorm + MLP 输出动作 chunk：

"att^l = [SA(at^l), CA(at^l,[h_q,MLP(s_t)]), CA(at^l,h_v), CA(at^l,h_seg)]"

03 实验 · Experiments

在模拟平台（LIBERO、LIBERO-Plus）和真实机器人（xArm7 + 双 Realsense 相机）上对 PokeVLA 进行全面评估，对比基线为 OpenVLA-OFT 和 VLA-Adapter。

VLM 能力评估（PokeVLM）

在空间感知、空间推理等具身 VLM 基准上，PokeVLM 大幅超越 Prismatic-VLM 基线：

Benchmark	Prismatic-VLM（基线）	PokeVLM
Where2Place (Point)	0.075	0.163
Where2Place (Bbox)	0.095	0.194
Where2Place (Location)	0.033	0.260
RefSpatial (Placement)	0.012	0.180
RefSpatial (Unseen)	0.015	0.169
CV-Bench	0.455	0.531

LIBERO 基准（表 IV）

方法	Spatial	Object	Goal	Long	Total
OpenVLA-OFT	98.8%	97.6%	96.0%	96.0%	97.1%
VLA-Adapter	99.6%	100%	97.6%	96.8%	98.5%
PokeVLA	99.6%	99.6%	98.4%	95.2%	98.2%

LIBERO-Plus 鲁棒性基准（表 V）

在迁移设置下（在 LIBERO 上训练，在 LIBERO-Plus 上测试），PokeVLA 超越 OpenVLA-OFT +9.7%，超越 VLA-Adapter +20.2%。在各类扰动下的性能对比：

扰动类型	OpenVLA-OFT	VLA-Adapter	PokeVLA
Camera Viewpoint	56.4%	52.4%	84.7%
Robot Initialization	55.5%	55.6%	64.3%
Language Variation	79.5%	70.7%	84.8%
Lighting	84.6%	69.5%	95.1%
Sensor Noise	75.8%	65.1%	89.8%
Total（Transfer）	69.6%	59.1%	79.3%

VLM 空间感知能力可视化 — 图 5：PokeVLM 在 Where2Place 基准上的空间理解可视化，展示模型对物体放置位置的准确定位能力，远优于原始 Prismatic-VLM 基线。

真实机器人实验

方法	8 任务平均成功率
OpenVLA-OFT	20.0%
VLA-Adapter	68.75%
PokeVLA	81.25%

在真实场景扰动测试（Table X）中，PokeVLA 综合超越 VLA-Adapter +20%（63.0% vs 43.0%），在末端执行器初始位姿扰动（70.0%）、目标物体扰动（60.0%）、光照扰动（75.0%）三类测试中均保持较高成功率。

消融实验（LIBERO-Plus Transfer 设置）

配置	Total	Spatial	Object	Goal	Long
Baseline	78.2%	83.2%	71.2%	75.5%	94.7%
+ Pre-training	82.9%	87.1%	80.5%	78.6%	94.7%
+ Geometry	81.0%	86.4%	70.0%	81.4%	97.5%
+ Goal-Aware	82.5%	83.8%	77.9%	82.9%	98.1%
Full Model	85.3%	88.8%	81.1%	83.0%	97.5%

消融实验表明，预训练、几何对齐和目标感知分割三个模块各自独立带来明显提升，三者结合后整体达到最佳 85.3% 的迁移成功率。

04 局限性 · Limitations

注：原论文未设独立的 Limitations 章节。以下各条均标注其来源：stated = 论文明确提及；inferred = 从实验设计或数据推断。

真实场景评估规模有限（stated）

真实机器人实验仅限于桌面拾放场景（110×110 cm 工作空间），共 8 项任务，每任务 10 次试验，数据集仅 60 种任务类型、3,000 条轨迹。泛化到更复杂、多样的操作任务尚未验证。

机器人初始化扰动鲁棒性偏低（stated）

在 LIBERO-Plus fine-tuned 设置下，Robot Initialization 扰动仅达 52.9%，是所有扰动类型中最低的一项，说明模型对机械臂初始位姿变化的适应能力仍有明显不足。

VGGT 几何特征提取仅用于训练（inferred）

几何对齐模块在推理时不引入 VGGT，避免了额外开销，但也意味着推理阶段无法动态更新几何先验，对高度遮挡或新颖几何场景的泛化能力存在潜在瓶颈。

预训练数据以英文指令为主（inferred）

2.4M 预训练样本主要来自英文指令数据集，多语言/跨语言操作场景的泛化能力未经验证。