机器人 · Robotics · NeurIPS 2025 Workshop

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

通过规模化运动跟踪,构建通用 humanoid 控制基础模型
Zhengyi Luo, Ye Yuan, Tingwu Wang, Chenran Li, Fernando Castañeda, Sirui Chen, Zi-Ang Cao, Jiefeng Li, David Minor, 等 · NVIDIA

SONIC 将 motion tracking 定位为 humanoid 控制的核心可扩展任务,通过同时放大网络规模、数据量和计算量,训练出能够自然、稳健地执行全身运动的基础模型。 系统核心是一个统一 token 空间(unified token space),将机器人运动、人体运动和混合运动统一编码,支持 VR teleoperation、视频遥控、VLA 模型等多种控制接口。

arXiv 2511.07820 2025 年 11 月 42M 参数 · 700h 运动数据 📄 arXiv:2511.07820 🌐 Project Page
humanoid control motion tracking unified token space cross-embodiment teleoperation VLA 全身控制 scaling law 运动捕捉 仿人机器人

01 动机

大语言模型已证明"规模即能力",但 humanoid 控制领域至今未能复现这一增益:现有神经控制器参数规模有限、行为种类单一、训练资源匮乏。 SONIC 的出发点正是弥合这一差距——证明在 humanoid 控制上同样存在清晰的 scaling law。

"Despite the rise of billion-parameter foundation models trained across thousands of GPUs, similar scaling gains have not been shown for humanoid control. Current neural controllers for humanoids remain modest in size, target a limited set of behaviors, and are trained on a handful of GPUs."
SONIC 多任务展示
图 1:SONIC 多模态控制能力总览。 同一套通用控制策略支持跑步、跳跃、爬行、双臂操作、VR 遥控、文本/音乐驱动等多种任务,全部通过 unified token space 统一接入。
42M最大模型参数量
700h运动捕捉数据(100M+ 帧)
21kGPU 小时训练计算量
95%VLA 自主操作任务成功率(20 次试验)

Motion tracking 天然适合 scaling:运动捕捉数据提供密集的监督信号,无需手工设计奖励函数;多样化数据集隐式赋予策略人体运动先验(human motion prior)。 SONIC 同时在三个维度上扩展:网络容量(1.2M → 42M 参数)、数据量(100M+ 帧,700 小时高质量 mocap)、计算量(21,000 GPU 小时)。

02 方法

SONIC 的核心是一个编解码框架,配备三种专用编码器,将异构控制信号(机器人关节、人体 SMPL 关节、稀疏关键点)统一映射到共享 latent 空间, 再经 Finite Scalar Quantization(FSQ)量化为 universal token,最终由统一解码器输出 29 维关节位置目标。

SONIC 系统架构
图 2:统一控制策略架构。 三条编码器路径分别处理机器人运动(robot encoder r)、人体运动(human encoder h)和混合运动(hybrid encoder m), 共同输出 universal token,送入控制解码器 𝒟c 和辅助重建解码器 𝒟r

Unified Token Space(统一 token 空间)

三条编码器各有分工:

所有编码器通过多层感知机(隐藏层:[2048, 1024, 512, 512])映射至共享 latent,经 FSQ 量化为 universal token。 辅助重建解码器 𝒟r 重建机器人运动,隐式实现 human-to-robot retargeting 与特征对齐。

训练目标:四项联合损失

训练损失由四项组成:

实时运动规划器(Kinematic Planner)

为将 motion tracking 能力桥接到实际任务(如导航),SONIC 额外引入实时运动规划器:在标准笔记本上延迟 <5 ms,在 Jetson Orin GPU 上 12 ms; 每 100 ms 或接到新指令时重新规划;每段运动时长 0.8–2.4s 自动确定。速度指令范围 0.0–6.0 m/s,支持 0–360° 任意方向。

Scaling 配置

训练使用 4,096 个并行环境/GPU,每环境 24 步,5 epochs,actor 学习率 2×10-5。 领域随机化涵盖摩擦系数(μs: 0.3–1.6,μa: 0.3–1.2)、质心偏移、外力扰动和运动扰动。 数据采用自适应运动采样(Adaptive Motion Sampling),以失败率为权重(β=200,混合参数 α=0.1)动态分配训练难度。

03 实验

评测基准:9 小时重新定向的 AMASS 数据(1,602 条轨迹),规模显著大于此前工作。 核心指标:轨迹成功率 + MPJPE(Mean Per-Joint Position Error,mm)。 基线方法:Any2Track、BeyondMimic、GMT。

Scaling 效果

SONIC 在三个维度上均呈现单调性能提升:网络规模(1.2M → 42M 参数)、数据量(到 100M+ 帧)、计算量(到 21k GPU 小时), 其中数据多样性带来的增益最为显著。性能随计算量稳定提升,表明 motion tracking 具备良好的 scaling law 特性。

Scaling 分析曲线
图 3:三轴 Scaling 分析。 左→右分别为数据集规模、模型参数量、计算量对 motion imitation 性能(MPJPE)的影响,以及与 Any2Track、BeyondMimic、GMT 等基线的对比。所有曲线均呈单调改善。

运动跟踪性能

指标结果说明
真实世界 50 条轨迹成功率100%涵盖舞蹈、跳跃、移动操作
超越基线全部指标vs. Any2Track, BeyondMimic, GMT:成功率 + MPJPE 均优
策略泛化通过可泛化到训练集外的未见运动

VR Teleoperation(3-point 接口)

指标均值95th 百分位
端到端延迟121.9 ms
右腕位置误差6 cm13.3 cm
右腕朝向误差0.145 rad (8.32°)0.267 rad (15.31°)
采集 demonstration300 条用于下游 VLA 微调
Teleoperation 与多模态控制
图 4:多模态控制接口演示。 左:视频遥控(webcam 驱动,≥60 fps 人体姿态估计);中:文本/音乐驱动舞蹈;右:VR 全身 teleoperation(3-point 稀疏接口,无需全套 mocap 硬件)。

VLA 自主操作(Apple-to-Plate 任务)

在 VR teleoperation 采集的 300 条轨迹上微调 GR00T N1.5 视觉-语言-动作模型(vision-language-action model), 然后通过 unified token space 直接将 VLA 输出的运动指令送入 SONIC 控制器,无需任何额外适配器。

VLA 自主移动双臂操作
图 5:苹果→盘子移动双臂操作任务。 GR00T N1.5 在 20 次试验中达到 95% 成功率,要求机器人协调双臂与双腿实现移动抓取与放置。

消融实验

消融验证了 unified token space 各组件的必要性:去掉 ℒtoken 对齐损失后,跨 embodiment 跟踪精度显著下降; 去掉 ℒcycle 循环一致性损失后,模态转换保真度下降。数据规模是 scaling 的最大贡献因素(文中明确指出"dataset size providing the most substantial gains")。

04 局限性

Note:以下限制部分为论文作者明确陈述(标注"stated"),部分为从设计推断(标注"inferred")。
安全性、合规性与能效问题尚未正式处理(stated)

论文原文指出:"formal treatment of safety, compliance, and energy efficiency for extended deployments" 是尚待解决的问题。 当前系统在长期部署场景中的安全边界和能耗表现尚不明确。

部署中噪声输入的鲁棒性(stated)

作者明确提及"combating noisy input during deployments"是待解决的挑战。 视频遥控路径下,实时姿态估计(≥60 fps)在光照、遮挡等不利条件下的鲁棒性仍有改善空间。

模态间隙与联合训练(stated)

论文将"exploring joint training of planner, tokenizers, and policy to reduce modality gaps"列为未来工作, 说明当前分阶段训练管线存在模态对齐误差的累积问题。

Scaling law 覆盖范围有限(inferred)

当前 scaling 实验在单一机器人平台(Unitree H1)上进行。跨机器人体型(embodiment morphology)的 scaling 规律是否成立,论文尚未验证。 作者将"scaling laws across more diverse datasets"列为未来方向。