HoloBrain-0 Technical Report

01 动机

通用机器人智能体的研发面临三大核心挑战：真实部署时出现的分布外状态（out-of-distribution states）、大规模收集高质量专家示范的高昂成本，以及在低延迟控制中部署大型模型的困难。现有 VLA 方法通常忽略相机内外参、机器人运动学等具身信息，导致在跨场景、跨具身迁移时表现下降。

"developing a truly general robotic agent remains a significant challenge" — 原文动机陈述，指出现有方法在现实部署的鲁棒性与泛化性方面仍存在显著差距。

HoloBrain-0 系统概览 — 图 1：HoloBrain-0 系统总览。模型将多视角 RGB 图像、机器人关节状态与 6D 姿态作为输入，通过 Perspective-aware Spatial Enhancer 将 2D 特征投影到统一 3D 坐标系，再经 Embodiment-Aware Action Expert 输出关节角残差与末端位姿位移，支持双臂 Piper 等多种具身形态。

92.3%RoboTwin 2.0 随机化基准成功率（HB-QW 1.1B）

97.4%LIBERO 基准平均成功率（HB-QW）

74.0%LIBERO-Plus 零样本鲁棒性 SOTA（HB-GD）

77.2%真实世界任务成功率（HB-QW，10 任务均值）

02 方法

HoloBrain-0 由三个核心部分构成：① Perspective-aware Spatial Enhancer（PSE）将多视角图像特征统一投影至 3D 空间；② Embodiment-Aware Action Expert 编码具身运动学状态并生成混合动作输出；③ 迭代测试驱动数据策略（Test-Driven Data Strategy），在测试中自动发现失败模式并针对性采集恢复轨迹。

图 2：HoloBrain-0 的输入状态表征与输出动作空间。输入包含多视角图像和机器人关节角（对夹爪关节角做掩码，仅保留 6D 姿态），输出为每个关节的残差增量：关节角残差（弧度）与末端连杆姿态位移（平移单位为米，旋转以四元数表示）。

Perspective-aware Spatial Enhancer（PSE）

PSE 利用相机内外参与深度图，将多视角 2D 图像特征投影到统一的 3D 坐标系。关键设计是将 3D 投影坐标系从机器人本体基座坐标系切换至固定中心相机坐标系，从而支持跨具身（cross-embodiment）训练——不同机器人的传感器布局不同，但统一到相机帧后可共享特征空间。

Embodiment-Aware Action Expert

动作专家模块对机器人状态进行编码：对夹爪关节角做掩码（masked），仅保留 6D 姿态信息，以实现跨具身兼容。输出动作为："a concatenation of joint angle residuals (in radians) and link pose displacements (in meters and quaternions)"，即同时预测关节角增量和连杆末端位姿增量，格式为 [Δθ, Δx, Δy, Δz, Δqw, Δqx, Δqy, Δqz]。训练损失包含关节位置损失、末端姿态损失、正向运动学姿态损失和深度损失四项，均采用 smooth L1 距离以缓解极端误差带来的训练不稳定。

图 3：HoloBrain-0 模型架构细节，展示了 Action Expert 中关节状态编码、multi-head attention 与输出预测头的具体连接方式。HB-GD（0.2B）与 HB-QW（1.1B）共享相同的 Action Expert（20.79M 参数），主要区别在于视觉编码器与语言模型的规模。

SimpleRTC 与 Teacher-forcing 训练

推理阶段采用 SimpleRTC：一种无梯度的软掩码（soft-masking）推理策略，将上一时刻未执行完毕的动作预测与新预测加权融合，实现异步、低延迟控制，相比同步基线可降低约 30–40% 的执行时间。训练阶段引入 Teacher Forcing：动态地将前 N 步输入噪声替换为真实动作，N 服从泊松分布采样，该比例从 0% 升至 50% 时成功率从约 70% 持续提升至约 87%。

迭代测试驱动数据策略

后训练数据采集分两个阶段：① 主动状态扩展（Proactive State Expansion）：系统化改变光照、背景、物体实例，并将全任务采集拆解为子任务；② 测试驱动失败恢复（Test-Driven Failure Recovery）：在每轮测试中分析失败模式，针对性采集 2–3 秒的恢复轨迹，形成闭环迭代。

03 实验

评测覆盖真实世界双臂 Piper 机器人（10 项任务，每项 20 次试验）和三个仿真基准：RoboTwin 2.0（50 任务，每任务 100 次）、LIBERO（40 任务，每任务 50 次）、GenieSim 2.2（10 人形机器人任务）。主要对比基线为 π0 和 π0.5。提供 HoloBrain-0-GD（0.2B，适合端侧部署）和 HoloBrain-0-QW（1.1B）两个变体。

仿真基准结果

Benchmark	π0.5	X-VLA	Motus	HB-GD (0.2B)	HB-QW (1.1B)
RoboTwin 2.0 Clean	82.74%	72.80%	88.66%	91.30%	91.90%
RoboTwin 2.0 Randomized	76.76%	72.84%	87.02%	90.80%	92.30%
LIBERO (40 tasks)	—	98.1%	—	—	97.4%
LIBERO-Plus（零样本鲁棒）	—	69.7%	—	74.0%	—

真实世界结果（双臂 Piper）

HoloBrain-0-GD 平均进度得分 88.07%、成功率 74.81%；HoloBrain-0-QW 平均进度得分 87.32%、成功率 77.18%，相比 π0.5 分别提升 +5.65% 和 +8.02%。代表性任务结果（成功率）：

任务	π0	π0.5	HoloBrain-0
Fold towel（折叠毛巾）	31.58%	63.16%	84.21%
Place shoe（放置鞋子）	48.39%	54.84%	96.77%
Fold clothes（折衣服，长时程）	15%	50%	75%
Fold paper box（折纸盒，长时程）	80%	65%	95%
Grasp anything（泛化抓取）	87.5%	98.4%	95%

真实世界任务场景 — 图 4：真实世界评测任务套件，包含 7 项基础操作任务（fold towel、place empty cup、place shoe、stack blocks/bowls three、put bottles basket）、2 项长时程任务（fold clothes、fold paper box）和 1 项泛化抓取任务（Grasp Anything，测试未见物体的抓取泛化能力，未见物体成功率 97.5%，高于已见物体的 93.5%）。

消融实验

与 Grasp Anything 任务协同训练的效果（7 项任务均值）：不加入协同训练时平均成功率为 72.40%，加入后提升至 75.00%（+2.6 points），各任务提升幅度 0–13.33 个百分点。

SimpleRTC 与 Teacher Forcing 消融 — 图 5：SimpleRTC 与 Teacher Forcing 比例的消融实验（布料折叠任务）。同步基线约 60% 成功率；加入 SimpleRTC 且 Teacher Forcing 比例为 0% 时升至约 70%；比例 25% 时约 85%；50% 时约 87%。异步 SimpleRTC 相比同步基线减少约 30–40% 执行时间。

04 局限性

注：论文未设专门 Limitations 章节；以下各点均由论文原文陈述（stated）整理，并在括号中注明出处章节。

仿真到真实的迁移差距依然存在（Sim-to-Real Gap）

论文原文承认："Although the sim-to-real gap persists, simulation benchmarks remain essential"（Section Experiments）。尽管 RoboTwin 2.0 等仿真基准上表现出色，真实世界部署中仍会出现新的分布外状态，需持续迭代数据采集加以弥补。

真实数据采集成本高（Data Collection Cost）

论文指出："The efficacy of post-training is often bottlenecked by the high cost of collecting high-quality, real-world data"。测试驱动策略虽有效降低采集需求，但每轮仍需人工遥操作录制恢复轨迹（约 2–3 秒/次），规模化时成本仍然显著。

精确指令跟随能力尚待评估（Instruction Following）

论文原文指出："We observe that precise instruction following is still an under-evaluated ability in current VLA research"，并将开发更严格的语言指令跟随基准列为未来工作方向，当前模型在区分语义相近指令时仍有提升空间。

未集成离线强化学习（Off-Policy RL）

当前 HoloBrain-0 仅采用模仿学习（imitation learning），论文在 Future Work 中明确提到将集成 off-policy 强化学习与价值模型（value models），以进一步突破专家示范的性能上限。