机器人 · Robotics · 2026

HoloBrain-0 Technical Report

具身感知驱动的通用机器人基础模型
Xuewu Lin, Tianwei Lin, Yun Du, Hongyu Xie, Yiwei Jin, Jiawei Li, Shijie Wu, Qingze Wang, Mengdi Li, Mengao Zhao, Ziang Li, Chaodong Huang, Hongzhe Bi, Lichao Huang, Zhizhong Su · CAMSENSE

HoloBrain-0 是一个视觉-语言-动作(VLA)基础模型,将多视角相机参数与机器人运动学信息融入架构设计,并结合测试驱动的迭代数据采集策略,大幅提升了机器人在真实世界与跨仿真基准上的操作性能。提供 0.2B 和 1.1B 两个规模的开源预训练模型及完整的 RoboOrchard 基础设施。

2026 年 2 月提交 开源预训练权重 双臂 Piper + 多具身训练 📄 arXiv:2602.12062 PDF
具身智能 VLA 机器人操作 cross-embodiment imitation learning 策略学习 多视角感知 测试驱动数据

01 动机

通用机器人智能体的研发面临三大核心挑战:真实部署时出现的分布外状态(out-of-distribution states)、大规模收集高质量专家示范的高昂成本,以及在低延迟控制中部署大型模型的困难。现有 VLA 方法通常忽略相机内外参、机器人运动学等具身信息,导致在跨场景、跨具身迁移时表现下降。

"developing a truly general robotic agent remains a significant challenge" — 原文动机陈述,指出现有方法在现实部署的鲁棒性与泛化性方面仍存在显著差距。
HoloBrain-0 系统概览
图 1:HoloBrain-0 系统总览。模型将多视角 RGB 图像、机器人关节状态与 6D 姿态作为输入,通过 Perspective-aware Spatial Enhancer 将 2D 特征投影到统一 3D 坐标系,再经 Embodiment-Aware Action Expert 输出关节角残差与末端位姿位移,支持双臂 Piper 等多种具身形态。
92.3%RoboTwin 2.0 随机化基准成功率(HB-QW 1.1B)
97.4%LIBERO 基准平均成功率(HB-QW)
74.0%LIBERO-Plus 零样本鲁棒性 SOTA(HB-GD)
77.2%真实世界任务成功率(HB-QW,10 任务均值)

02 方法

HoloBrain-0 由三个核心部分构成:① Perspective-aware Spatial Enhancer(PSE)将多视角图像特征统一投影至 3D 空间;② Embodiment-Aware Action Expert 编码具身运动学状态并生成混合动作输出;③ 迭代测试驱动数据策略(Test-Driven Data Strategy),在测试中自动发现失败模式并针对性采集恢复轨迹。

输入状态表征与输出动作空间
图 2:HoloBrain-0 的输入状态表征与输出动作空间。输入包含多视角图像和机器人关节角(对夹爪关节角做掩码,仅保留 6D 姿态),输出为每个关节的残差增量:关节角残差(弧度)与末端连杆姿态位移(平移单位为米,旋转以四元数表示)。

Perspective-aware Spatial Enhancer(PSE)

PSE 利用相机内外参与深度图,将多视角 2D 图像特征投影到统一的 3D 坐标系。关键设计是将 3D 投影坐标系从机器人本体基座坐标系切换至固定中心相机坐标系,从而支持跨具身(cross-embodiment)训练——不同机器人的传感器布局不同,但统一到相机帧后可共享特征空间。

Embodiment-Aware Action Expert

动作专家模块对机器人状态进行编码:对夹爪关节角做掩码(masked),仅保留 6D 姿态信息,以实现跨具身兼容。输出动作为:"a concatenation of joint angle residuals (in radians) and link pose displacements (in meters and quaternions)",即同时预测关节角增量和连杆末端位姿增量,格式为 [Δθ, Δx, Δy, Δz, Δqw, Δqx, Δqy, Δqz]。训练损失包含关节位置损失、末端姿态损失、正向运动学姿态损失和深度损失四项,均采用 smooth L1 距离以缓解极端误差带来的训练不稳定。

模型架构细节
图 3:HoloBrain-0 模型架构细节,展示了 Action Expert 中关节状态编码、multi-head attention 与输出预测头的具体连接方式。HB-GD(0.2B)与 HB-QW(1.1B)共享相同的 Action Expert(20.79M 参数),主要区别在于视觉编码器与语言模型的规模。

SimpleRTC 与 Teacher-forcing 训练

推理阶段采用 SimpleRTC:一种无梯度的软掩码(soft-masking)推理策略,将上一时刻未执行完毕的动作预测与新预测加权融合,实现异步、低延迟控制,相比同步基线可降低约 30–40% 的执行时间。训练阶段引入 Teacher Forcing:动态地将前 N 步输入噪声替换为真实动作,N 服从泊松分布采样,该比例从 0% 升至 50% 时成功率从约 70% 持续提升至约 87%。

迭代测试驱动数据策略

后训练数据采集分两个阶段:① 主动状态扩展(Proactive State Expansion):系统化改变光照、背景、物体实例,并将全任务采集拆解为子任务;② 测试驱动失败恢复(Test-Driven Failure Recovery):在每轮测试中分析失败模式,针对性采集 2–3 秒的恢复轨迹,形成闭环迭代。

03 实验

评测覆盖真实世界双臂 Piper 机器人(10 项任务,每项 20 次试验)和三个仿真基准:RoboTwin 2.0(50 任务,每任务 100 次)、LIBERO(40 任务,每任务 50 次)、GenieSim 2.2(10 人形机器人任务)。主要对比基线为 π0 和 π0.5。提供 HoloBrain-0-GD(0.2B,适合端侧部署)和 HoloBrain-0-QW(1.1B)两个变体。

仿真基准结果

Benchmarkπ0.5X-VLAMotusHB-GD (0.2B)HB-QW (1.1B)
RoboTwin 2.0 Clean 82.74% 72.80% 88.66% 91.30% 91.90%
RoboTwin 2.0 Randomized 76.76% 72.84% 87.02% 90.80% 92.30%
LIBERO (40 tasks) 98.1% 97.4%
LIBERO-Plus(零样本鲁棒) 69.7% 74.0%

真实世界结果(双臂 Piper)

HoloBrain-0-GD 平均进度得分 88.07%、成功率 74.81%;HoloBrain-0-QW 平均进度得分 87.32%、成功率 77.18%,相比 π0.5 分别提升 +5.65% 和 +8.02%。代表性任务结果(成功率):

任务π0π0.5HoloBrain-0
Fold towel(折叠毛巾)31.58%63.16%84.21%
Place shoe(放置鞋子)48.39%54.84%96.77%
Fold clothes(折衣服,长时程)15%50%75%
Fold paper box(折纸盒,长时程)80%65%95%
Grasp anything(泛化抓取)87.5%98.4%95%
真实世界任务场景
图 4:真实世界评测任务套件,包含 7 项基础操作任务(fold towel、place empty cup、place shoe、stack blocks/bowls three、put bottles basket)、2 项长时程任务(fold clothes、fold paper box)和 1 项泛化抓取任务(Grasp Anything,测试未见物体的抓取泛化能力,未见物体成功率 97.5%,高于已见物体的 93.5%)。

消融实验

与 Grasp Anything 任务协同训练的效果(7 项任务均值):不加入协同训练时平均成功率为 72.40%,加入后提升至 75.00%(+2.6 points),各任务提升幅度 0–13.33 个百分点。

SimpleRTC 与 Teacher Forcing 消融
图 5:SimpleRTC 与 Teacher Forcing 比例的消融实验(布料折叠任务)。同步基线约 60% 成功率;加入 SimpleRTC 且 Teacher Forcing 比例为 0% 时升至约 70%;比例 25% 时约 85%;50% 时约 87%。异步 SimpleRTC 相比同步基线减少约 30–40% 执行时间。

04 局限性

注: 论文未设专门 Limitations 章节;以下各点均由论文原文陈述(stated)整理,并在括号中注明出处章节。
仿真到真实的迁移差距依然存在(Sim-to-Real Gap)

论文原文承认:"Although the sim-to-real gap persists, simulation benchmarks remain essential"(Section Experiments)。尽管 RoboTwin 2.0 等仿真基准上表现出色,真实世界部署中仍会出现新的分布外状态,需持续迭代数据采集加以弥补。

真实数据采集成本高(Data Collection Cost)

论文指出:"The efficacy of post-training is often bottlenecked by the high cost of collecting high-quality, real-world data"。测试驱动策略虽有效降低采集需求,但每轮仍需人工遥操作录制恢复轨迹(约 2–3 秒/次),规模化时成本仍然显著。

精确指令跟随能力尚待评估(Instruction Following)

论文原文指出:"We observe that precise instruction following is still an under-evaluated ability in current VLA research",并将开发更严格的语言指令跟随基准列为未来工作方向,当前模型在区分语义相近指令时仍有提升空间。

未集成离线强化学习(Off-Policy RL)

当前 HoloBrain-0 仅采用模仿学习(imitation learning),论文在 Future Work 中明确提到将集成 off-policy 强化学习与价值模型(value models),以进一步突破专家示范的性能上限。