SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

01 动机

大语言模型已证明"规模即能力"，但 humanoid 控制领域至今未能复现这一增益：现有神经控制器参数规模有限、行为种类单一、训练资源匮乏。 SONIC 的出发点正是弥合这一差距——证明在 humanoid 控制上同样存在清晰的 scaling law。

"Despite the rise of billion-parameter foundation models trained across thousands of GPUs, similar scaling gains have not been shown for humanoid control. Current neural controllers for humanoids remain modest in size, target a limited set of behaviors, and are trained on a handful of GPUs."

SONIC 多任务展示 — **图 1：SONIC 多模态控制能力总览。** 同一套通用控制策略支持跑步、跳跃、爬行、双臂操作、VR 遥控、文本/音乐驱动等多种任务，全部通过 unified token space 统一接入。

42M最大模型参数量

700h运动捕捉数据（100M+ 帧）

21kGPU 小时训练计算量

95%VLA 自主操作任务成功率（20 次试验）

Motion tracking 天然适合 scaling：运动捕捉数据提供密集的监督信号，无需手工设计奖励函数；多样化数据集隐式赋予策略人体运动先验（human motion prior）。 SONIC 同时在三个维度上扩展：网络容量（1.2M → 42M 参数）、数据量（100M+ 帧，700 小时高质量 mocap）、计算量（21,000 GPU 小时）。

02 方法

SONIC 的核心是一个编解码框架，配备三种专用编码器，将异构控制信号（机器人关节、人体 SMPL 关节、稀疏关键点）统一映射到共享 latent 空间，再经 Finite Scalar Quantization（FSQ）量化为 universal token，最终由统一解码器输出 29 维关节位置目标。

SONIC 系统架构 — **图 2：统一控制策略架构。** 三条编码器路径分别处理机器人运动（robot encoder ℰ_r）、人体运动（human encoder ℰ_h）和混合运动（hybrid encoder ℰ_m），共同输出 universal token，送入控制解码器 𝒟_c 和辅助重建解码器 𝒟_r。

Unified Token Space（统一 token 空间）

三条编码器各有分工：

Robot Motion Encoder（ℰ_r）：接收未来 10 帧（0.1s 间隔）机器人关节位置/速度，适用于直接机器人运动跟踪。
Human Motion Encoder（ℰ_h）：编码未来 10 帧（0.02s 间隔）人体 3D SMPL 关节位置，无需显式 retargeting。
Hybrid Motion Encoder（ℰ_m）：融合稀疏上肢关键点（头部、双手、手指角度、腰部高度）与下肢机器人运动，支持 3-point VR teleoperation。

所有编码器通过多层感知机（隐藏层：[2048, 1024, 512, 512]）映射至共享 latent，经 FSQ 量化为 universal token。辅助重建解码器 𝒟_r 重建机器人运动，隐式实现 human-to-robot retargeting 与特征对齐。

训练目标：四项联合损失

训练损失由四项组成：

ℒ_ppo：标准 Proximal Policy Optimization 强化学习损失。
ℒ_recon：重建损失，使模型学习 human→robot 的隐式 retargeting。
ℒ_token：对齐损失，"measures the discrepancy between the robot token and the human motion token"，驱动跨 embodiment 的表征对齐。
ℒ_cycle：循环一致性损失，确保跨模态转换的保真度。

实时运动规划器（Kinematic Planner）

为将 motion tracking 能力桥接到实际任务（如导航），SONIC 额外引入实时运动规划器：在标准笔记本上延迟 <5 ms，在 Jetson Orin GPU 上 12 ms；每 100 ms 或接到新指令时重新规划；每段运动时长 0.8–2.4s 自动确定。速度指令范围 0.0–6.0 m/s，支持 0–360° 任意方向。

Scaling 配置

训练使用 4,096 个并行环境/GPU，每环境 24 步，5 epochs，actor 学习率 2×10^-5。领域随机化涵盖摩擦系数（μ_s: 0.3–1.6，μ_a: 0.3–1.2）、质心偏移、外力扰动和运动扰动。数据采用自适应运动采样（Adaptive Motion Sampling），以失败率为权重（β=200，混合参数 α=0.1）动态分配训练难度。

03 实验

评测基准：9 小时重新定向的 AMASS 数据（1,602 条轨迹），规模显著大于此前工作。核心指标：轨迹成功率 + MPJPE（Mean Per-Joint Position Error，mm）。基线方法：Any2Track、BeyondMimic、GMT。

Scaling 效果

SONIC 在三个维度上均呈现单调性能提升：网络规模（1.2M → 42M 参数）、数据量（到 100M+ 帧）、计算量（到 21k GPU 小时），其中数据多样性带来的增益最为显著。性能随计算量稳定提升，表明 motion tracking 具备良好的 scaling law 特性。

Scaling 分析曲线 — **图 3：三轴 Scaling 分析。** 左→右分别为数据集规模、模型参数量、计算量对 motion imitation 性能（MPJPE）的影响，以及与 Any2Track、BeyondMimic、GMT 等基线的对比。所有曲线均呈单调改善。

运动跟踪性能

指标	结果	说明
真实世界 50 条轨迹成功率	100%	涵盖舞蹈、跳跃、移动操作
超越基线	全部指标	vs. Any2Track, BeyondMimic, GMT：成功率 + MPJPE 均优
策略泛化	通过	可泛化到训练集外的未见运动

VR Teleoperation（3-point 接口）

指标	均值	95th 百分位
端到端延迟	121.9 ms	—
右腕位置误差	6 cm	13.3 cm
右腕朝向误差	0.145 rad (8.32°)	0.267 rad (15.31°)
采集 demonstration	300 条	用于下游 VLA 微调

Teleoperation 与多模态控制 — **图 4：多模态控制接口演示。** 左：视频遥控（webcam 驱动，≥60 fps 人体姿态估计）；中：文本/音乐驱动舞蹈；右：VR 全身 teleoperation（3-point 稀疏接口，无需全套 mocap 硬件）。

VLA 自主操作（Apple-to-Plate 任务）

在 VR teleoperation 采集的 300 条轨迹上微调 GR00T N1.5 视觉-语言-动作模型（vision-language-action model），然后通过 unified token space 直接将 VLA 输出的运动指令送入 SONIC 控制器，无需任何额外适配器。

VLA 自主移动双臂操作 — **图 5：苹果→盘子移动双臂操作任务。** GR00T N1.5 在 20 次试验中达到 **95% 成功率**，要求机器人协调双臂与双腿实现移动抓取与放置。

消融实验

消融验证了 unified token space 各组件的必要性：去掉 ℒ_token 对齐损失后，跨 embodiment 跟踪精度显著下降；去掉 ℒ_cycle 循环一致性损失后，模态转换保真度下降。数据规模是 scaling 的最大贡献因素（文中明确指出"dataset size providing the most substantial gains"）。

04 局限性

Note：以下限制部分为论文作者明确陈述（标注"stated"），部分为从设计推断（标注"inferred"）。

安全性、合规性与能效问题尚未正式处理（stated）

论文原文指出："formal treatment of safety, compliance, and energy efficiency for extended deployments" 是尚待解决的问题。当前系统在长期部署场景中的安全边界和能耗表现尚不明确。

部署中噪声输入的鲁棒性（stated）

作者明确提及"combating noisy input during deployments"是待解决的挑战。视频遥控路径下，实时姿态估计（≥60 fps）在光照、遮挡等不利条件下的鲁棒性仍有改善空间。

模态间隙与联合训练（stated）

论文将"exploring joint training of planner, tokenizers, and policy to reduce modality gaps"列为未来工作，说明当前分阶段训练管线存在模态对齐误差的累积问题。

Scaling law 覆盖范围有限（inferred）

当前 scaling 实验在单一机器人平台（Unitree H1）上进行。跨机器人体型（embodiment morphology）的 scaling 规律是否成立，论文尚未验证。作者将"scaling laws across more diverse datasets"列为未来方向。