HPT: Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

01 动机

机器人学习领域面临一个核心挑战：不同机器人形态（embodiment）拥有各异的硬件结构、传感器配置和动作空间，导致现有方法通常为特定形态和任务单独收集数据、单独训练模型，难以实现跨形态的知识复用和泛化。

"We want to pre-train task-agnostic and embodiment-agnostic foundational models that can map raw sensor signals from individual embodiments into a shared latent space."

现有的大规模机器人数据集（如 Open-X-Embodiment）汇集了多种形态，但由于形态异质性（heterogeneity），简单地将所有数据混合训练往往效果不佳。本文的核心问题是：能否设计一种通用预训练框架，使得跨形态、跨任务的数据能够真正互补，而非相互干扰？

HPT heterogeneous pre-training concept — **Figure 1：HPT 异构预训练概念图。** 不同机器人形态（双臂机器人、单臂操作臂、手部、人类示教等）各自经过形态专属的 tokenizer（stem），将本体感知信息和视觉观测映射为统一格式的 token 序列，再输入共享的 Transformer trunk 学习通用表征。形态多样性越高、数据规模越大，trunk 获益越多。

>20%未见任务成功率提升

52预训练数据集数量

1.1BHPT-Huge 参数量

270k预训练轨迹数量

02 方法

HPT 将策略神经网络拆分为三个模块：形态专属的 stem（输入对齐层）、可共享的大型 trunk（Transformer 主干）、以及任务专属的 head（动作输出层）。预训练阶段共享 trunk，迁移时仅微调 head 或全部参数。

HPT architecture: stem, trunk, head — **Figure 2：HPT 整体架构。** 每种机器人形态配有独立的 stem 和 head（switch 机制按当前数据集激活对应的 stem/head），所有形态共享同一个 trunk。stem 将视觉和本体感知观测分别映射为各 16 个 token，拼接后输入 trunk；trunk 输出经池化后由 head 解码为动作序列。这一设计使得 trunk 能够在异构数据上协同学习，而不同形态的 IO 差异由 stem/head 吸收。

Stem：本体感知与视觉 Token 化

对于形态 k，proprioceptive tokenizer 将任意维度的本体感知序列（关节角度、末端位姿等）映射为 N_p=16 个固定维度 token：先用 MLP 映射到特征空间，再施加 sinusoidal 位置编码，通过 cross-attention 将特征压缩到 16 个可学习 query token 上。Vision tokenizer 则先用冻结的 ResNet-18 提取图像特征，再同样通过 attention 映射到 16 个 token。两组 token 拼接后形成 32 个输入 token 送入 trunk。

HPT stem architecture: proprioceptive and vision tokenizers — **Figure 3：Stem 架构细节。** 左侧为本体感知 tokenizer（MLP + sinusoidal PE + cross-attention → 16 tokens），右侧为视觉 tokenizer（冻结 ResNet-18 特征 + cross-attention → 16 tokens）。两者输出拼接后送入 trunk。每种形态的 stem 参数独立，但结构相同。

Trunk：共享 Transformer 主干

Trunk 是标准的 Transformer encoder，提供五种规格的参数量：

规格	参数量	深度	宽度
HPT-Small	3.1M	—	—
HPT-Base	12.6M	—	—
HPT-Large	50.5M	—	—
HPT-XL	226.8M	—	—
HPT-Huge	1.1B	—	—

预训练阶段，trunk 对所有数据集共享权重，通过 switch 机制在同一个 batch 中激活不同形态的 stem/head 对，实现真正的异构联合训练。迁移时，trunk 初始化来自预训练权重，head 重新初始化后再端到端微调。

预训练数据规模

默认设置使用 27 个 RT-X 数据集（16k 轨迹，5M 样本，batch size 256）。大规模设置扩展到 52 个数据集（270k 轨迹，155M 样本，batch size 2048），涵盖 42 个真实机器人数据集、7 个仿真数据集、3 个人类视频数据集和 1 个已部署机器人数据集。

03 实验

实验在仿真和真实机器人两条线上展开：仿真使用 Meta-world、RoboMimic、Fleet-Tools 和 Simpler（Google EDR 机器人）基准；真实机器人实验在接触丰富型操作任务上与多个基线对比。

仿真迁移学习

在 Meta-world、RoboMimic、Fleet-Tools 三个仿真基准上，HPT 预训练权重经微调后相比从头训练的基线，在未见任务上成功率平均提升超过 20%。在 Simpler 基准上，HPT-Base 与 Octo、RT1-X、RT2-X 表现相当，验证了跨形态预训练的迁移能力。

Simulation benchmark results — **仿真基准结果（Figure 10）。** 左：Meta-world、RoboMimic、Fleet-Tools 上 HPT 不同规格 vs. 基线的成功率对比；右：Simpler 基准上与 Octo、RT1-X、RT2-X 的比较。HPT 在大多数任务上超越从头训练的策略。

真实机器人实验

在真实机器人操作任务上（Sweep Leftover 等接触丰富型任务），HPT 显著优于从头训练的基线：

方法	Sweep Leftover 成功率
From Scratch（无本体感知）	26.7±3.3%
From Scratch（含本体感知）	43.3±3.8%
R3M	50.0±3.0%
No Prop. Finetuned（HPT，无本体感知微调）	63.3±2.6%
HPT-Base Finetuned	70.0±3.0%
HPT-XL Finetuned	76.7±3.3%

Real-world robot manipulation results — **Figure 12：真实机器人迁移学习结果。** HPT 在多个形态和任务上均显著超越 From Scratch 基线，尤其在接触丰富型操作（如 Sweep Leftover）上，HPT-XL 比从头训练提升约 33 个百分点。

规模化消融（Scaling Laws）

实验表明 HPT 呈现出良好的 scaling 特性：

数据规模：从 16k 轨迹扩展到 270k 轨迹，验证集 loss 持续下降，模型持续受益于更多数据。
模型规模：从 HPT-Small（3.1M）扩展到 HPT-Huge（1.1B），性能随参数量增长单调提升。
数据多样性：加入仿真数据集和人类视频数据进行联合预训练，进一步提升下游任务迁移效果。
本体感知对齐：消融实验显示，仅使用视觉而不加入本体感知信息会导致成功率明显下降（No Prop. Finetuned vs. HPT-Base：63.3% vs. 70.0%），表明本体感知 token 化是 HPT 的关键设计。

04 局限性

Note: 以下局限性均为论文作者在原文中明确陈述（stated）。

数据集平衡策略过于简单

"Embodiment splits in balanced dataset mixture are rather simple"——目前的数据集混合策略仅做了粗粒度的形态平衡，没有针对任务难度、数据质量或分布偏移进行更精细的采样调度，可能导致某些形态或任务被欠采样。

数据质量过滤不足

"Data filtering to ensure quality is under-explored"——当前预训练直接使用原始数据集，未对低质量、噪声较大的轨迹进行过滤，而数据质量对预训练效果影响显著。

异构预训练收敛缓慢

"Heterogeneous pre-training can converge slowly"——由于不同形态的梯度可能相互冲突，trunk 的联合优化比单一形态训练收敛更慢，在大规模设置下计算成本显著增加。

任务可靠性仍有不足

"Policies still do not offer very high reliability on tested tasks (typically below 90%)"——即使是最大的 HPT-XL，在真实机器人任务上最高成功率仅约 76.7%，距离工业级可靠性（>90%）仍有较大差距。

评测范围受限

实验主要集中在"short-horizon manipulation tasks with fixed embodiment"，未涉及长时序任务、移动操作、或多臂协作等更复杂场景，泛化边界尚不清晰。