OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control

01 动机

高保真运动追踪是检验 humanoid 运动技能泛化能力的"终极试金石"。但当 motion library 覆盖越来越多样的风格、接触状态与节奏模式时，追踪质量反而系统性下降，高动态动作尤甚。

"when we scale to larger, more heterogeneous motion libraries spanning diverse styles, contact regimes, and timing modes, motion tracking quality tends to degrade. Controllers become conservative and 'average,' break on the hardest motions, or prove brittle to the small deviations that inevitably occur in sim-to-real transfer."

作者将这一"泛化壁垒"归因于两个叠加障碍：

学习瓶颈（learning bottleneck）：现有方法依赖简单 MLP，在多运动联合 RL 训练中存在梯度干扰，导致策略向"保守均值"退化，在高动态行为上选择性失败。
物理可执行性瓶颈（physical executability bottleneck）：即便仿真中追踪保真，真机部署时仍因建模缺失（力矩–速度特性、速度相关力矩损耗、再生制动等致动器非线性）而快速失稳。

OmniXtreme teaser — pipeline overview — **图 1（Figure 2 原文）：OmniXtreme 总览。** (a) 预训练阶段：通过 DAgger-based Flow Matching，将多个运动追踪专家的行为聚合进一个统一 base policy； (b) 后训练阶段：冻结 base policy，在严格电机约束、大规模域随机化和 power-safety 正则化下优化残差策略以跨越 sim-to-real gap； (c) 板载部署：整个推理流水线经 TensorRT 加速，完全在机器人板载 Orin NX 上运行，端到端延迟 10 ms，控制频率 50 Hz。

91.08%真机综合成功率（157 次）

96.36%翻跟头（Flip）成功率（55 次）

30.93 mm仿真 MPJPE（LaFAN1 + XtremeMotion）

10 ms板载推理端到端延迟

02 方法

OmniXtreme 将多运动控制分为两个解耦阶段：Phase 1 以高容量 flow matching 模型建立可扩展的统一运动先验，绕开干扰密集的多运动 RL 优化；Phase 2 冻结 base policy，用轻量级残差策略在 actuation-aware 约束下对齐真机特性。

Phase 1：基于 DAgger 的 Flow Matching 预训练

首先对每条运动单独训练 PPO 专家策略（teacher），数据来源涵盖 LAFAN1、AMASS、MimicKit 和 Reallusion，运动重定向至 Unitree G1。随后用 DAgger 从专家处蒸馏出统一 flow matching policy：

ℒ_FM(θ) = 𝔼[‖v_θ(a_t, t, o) − (ε − a_expert)‖²]

速度场学习目标为 u = ε − a_expert，推理时通过前向 Euler 积分从噪声重建动作。预训练阶段采用"保真度保护型域随机化"（较小噪声水平，如关节位置噪声 ±0.01 rad），以避免对 base policy 的精度造成损害。高容量架构（Transformer/大 MLP）相比普通 MLP 有更强的容量可扩展性。

Phase 2：Actuation-Aware 残差后训练

冻结 base policy 后，用轻量级 MLP 残差策略叠加修正动作：a = a_flow + a_res，经 PPO 优化。该阶段引入三项针对真机约束的关键机制：

激进域随机化（ADR）：标准随机化幅度放大至 50%，包括初始位姿噪声 ±0.15 rad、线速度 xy ±0.75 m/s / z ±0.3 m/s、角速度（滚仰）±0.78 rad/s /（偏航）±1.17 rad/s；引入地形面噪声与竖直台阶放置；终止阈值放宽 1.5×。
Power-Safe 致动正则化：对膝关节负机械功率施加惩罚，防止再生制动引发过流保护：ℒ_neg-power = Σ_j(max(−P_j − P_db, 0) / K)²。
力矩–速度约束（Torque-Speed Constraints）：引入分段线性力矩上限（|v| < v_x1 时为 τ_max,0，线性降至 v_x2 处为 0），叠加非线性摩擦模型：τ_applied = τ_clipped − (μ_s·tanh(v/v_act) + μ_d·v)，精确模拟真实致动器包络。

Fidelity-scalability trade-off curve — **Figure 3：Fidelity–scalability trade-off。** 随运动多样性与难度逐步扩大，OmniXtreme 在固定前 10 条运动集上保持较高追踪成功率；从零训练的 RL 在超过某临界规模后出现"急剧鲁棒性崩溃"。

Capacity scaling curve — **Figure 4：Capacity scaling。** OmniXtreme 随模型容量增加有更强的追踪保真度增益，"而传统 MLP 控制器更早饱和"（原文引用）。

03 实验

评估在 Unitree G1 humanoid 上进行，仿真使用 LAFAN1 + XtremeMotion（约 60 条高动态运动）数据集，评估指标包括 MPJPE (mm)、Δvel (mm/frame)、Δacc (mm/frame²) 和成功率（Succ）。真机实验涵盖 157 次试验、5 类技能。

Table II · 可扩展高保真运动追踪（仿真）

方法	LaFAN1+XtremeMotion MPJPE↓	成功率↑	XtremeMotion MPJPE↓	成功率↑
From-scratch RL	47.95	82.95%	54.19	79.45%
Specialist → Unified MLP	33.35	94.91%	43.43	89.22%
OmniXtreme（仅预训练）	32.65	97.17%	37.11	95.16%
OmniXtreme（完整）	30.93	98.54%	36.17	95.64%

另：泛化到未见运动集成功率 89.54%（OmniXtreme 完整版）。

Table III · 真机评估（Unitree G1，157 次试验）

技能类别	试验次数	成功率
Flip（翻跟头）	55	96.36%
Handspring（手翻）	35	88.57%
Acrobatics（杂技）	15	80.00%
Breakdance（霹雳舞）	22	86.36%
Martial arts（武术）	30	93.33%
合计	157	91.08%

Qualitative real-world rollouts — **Figure 5：定性结果。** OmniXtreme 在真机上产出的代表性 rollout，涵盖翻跟头、杂技、霹雳舞和武术等定性差异显著的全身动作，"展示了在快速接触切换和时序敏感阶段下的稳定协调执行"（原文）。

消融实验（Table IV）

对后训练各机制的逐步消融（真机可执行性）显示：

None（仅 base 预训练策略）：Flip 和 Breakdance 均不稳定，Acrobatics 完全失败。
+Motor Constraints（MC）：Flip 稳定，Breakdance 仍不稳定，Acrobatics 仍失败。
+ADR：Flip 和 Breakdance 稳定，Acrobatics 部分成功（主要由 power-safety 保护触发失败）。
完整版（MC + ADR + PS）：三类技能全部稳定执行。

结论："不同类别的高动态动作具有各自独特的失败模式，每种执行导向机制各自解决了互补的方面。"

04 局限性

说明：论文在附录 V-M "Failure Cases and Discussion" 中给出了明确讨论；主论文结论节亦有展望，以下内容均为作者明确陈述。

极限着陆阶段的硬件保护触发

真机部署中观察到少量失败案例，"主要发生在某些极限动作的高冲量着陆阶段，巨大的瞬态制动载荷触发了硬件保护机制，包括电机过流、功率限制或电池欠压事件"（原文）。这些动作在仿真和 sim-to-sim 中均可稳定执行，表明失败并非追踪精度或平衡丧失所致，而是揭示了"仿真致动模型与极端动态条件下真实硬件能力包络之间的残余差距"（原文）。

残差后训练对 base policy 全容量利用的限制

当前后训练冻结 flow-based base policy，仅训练轻量级残差 MLP。"虽然这种设计提供了稳定性和采样效率，但也可能限制大型 flow-based 模型的全部表示容量被进一步适应到硬件特定约束的程度"（原文）。未来可探索直接微调完整 base policy 的后训练策略。

致动器与电源系统建模的不完整性

作者指出，进一步提升极限动作鲁棒性需要"对真实致动器和电源系统限制进行更全面的建模，包括力矩、速度、电流、功率流和电池电压动态的耦合效应，这些在仿真中仍难以精确捕捉"（原文）。

数据多样性与模型容量的联合扩展

结论节指出，"联合扩展数据多样性和模型容量对于增强全身 humanoid 运动技能的泛化能力至关重要"（原文），是未来研究的主要方向。