Muon 优化器的均匀谱白化(uniform spectral whitening)在语言模型预训练中表现出色,但在跨模态 VLA 训练和 RLVR 后训练两种新兴场景下存在根本性缺陷。本文提出 Pion(sPectral hIgh-pass Optimization on momeNtum),以两阶段 Promotion+Suppression 机制替代均匀白化,在保持与 Muon 相同计算代价的同时,显著提升了 VLA 和 RLVR 的性能与稳定性。
Muon 是近期兴起的高效矩阵优化器,其核心操作是对动量矩阵做"矩阵符号"(matrix sign,即将所有奇异值统一归一到 1)。这一设计在 LLM 预训练中促进了各向同性探索(isotropic exploration),效果显著。然而,当 Muon 被移植到两种日益重要的后训练场景时,均匀谱白化暴露出根本性的失效模式:
在视觉-语言-动作(VLA)微调中,动作模块(action module)的梯度本质上是低秩的(low-rank)。Muon 的均匀白化会将这些低秩噪声方向同等放大,导致有效秩(effective rank, erank)在训练过程中急剧下降,最终降低动作预测精度。
在带可验证奖励的强化学习(RLVR)中,梯度信噪比(SNR)远低于 SFT 场景(接近 1:1)。Muon 均匀放大所有奇异方向,将噪声信号等同对待,导致模型精度从初始检查点骤降至接近零:"accuracy drops from the initial checkpoint and converges to near zero."
"Muon's uniform spectral whitening enhances exploration during pretraining but leads to fundamental limitations beyond that setting in two increasingly important regimes: cross-modality vision-language-action training, where low-rank action gradients amplify noise, and reinforcement learning with verifiable rewards, where low-SNR gradients and per-head specialization requirements cause instability."
Pion 保留 Muon 的动量更新框架(Θₜ = Θₜ₋₁ - η · msign(Mₜ)),但用两阶段高通滤波替代均匀归一(matrix sign):先通过 Promotion 多项式放大所有奇异值,再通过 Suppression 多项式将大奇异值锚定在 1 并将小奇异值压制趋零。整个过程通过多项式迭代近似,无需显式 SVD,保持与 Muon 相同的计算效率。
Muon 用 Newton-Schulz 多项式迭代近似矩阵符号函数(msign):每次迭代对每个奇异值 σ 施加映射 f_NS(σ) = aσ + bσ³ + cσ⁵,系数为 (a,b,c) = (3.4445, -4.7750, 2.0315)。经过 5 步迭代后,所有奇异值均被推向 1(均匀白化),无论其原始幅度大小。这对低秩梯度或低 SNR 场景是有害的,因为噪声方向与信号方向被等同对待。
Pion 将 5 步 Newton-Schulz 迭代分成两个子阶段:
整体映射为 f = fₛ^{kₛ} ∘ fₚ^{kₚ},其中 kₚ + kₛ = 5。这种高通(high-pass)特性使 Pion 能区分主要奇异方向(信号)与噪声尾部(tail),实现选择性放大。
在 RLVR 场景中,注意力投影矩阵(Q/K/V projection)的不同 head 在预训练后已形成异质性特化(pretrained heterogeneity)。Pion 的 per-head 模式沿 head 维度对注意力投影进行重塑,对每个 head 独立施加高通 NS 迭代,从而在更新时保留各 head 的特化差异,而不引入额外的计算开销。
实验覆盖两大后训练场景:(1) VLA 训练,在 LIBERO 基准和真实机器人上评估 VLA-Adapter 与 VLANeXt;(2) RLVR 后训练,在 MATH 和 GSM8K 数据集上用 GRPO/GMPO 算法评估 Qwen3-1.7B 与 Qwen3-4B。三个优化器(AdamW、Muon、Pion)共享其余所有超参数,仅优化器配置不同。
| 模型 / 数据集 | AdamW | Muon | Pion |
|---|---|---|---|
| VLA-Adapter — LIBERO Object (1,500 steps) | 32.2% | 97.0% | 100% |
| VLANeXt — LIBERO 平均 | 79.45% | 93.65% | 96.35% |
| VLANeXt — LIBERO-Plus 平均 | 64.57% | 72.34% | 75.93% |
在 DROID 配置下使用 π₀.₅ 作为 backbone,对三项抓取放置任务各进行 30 次随机初始化测试:
| 优化器 | 平均成功率(3 个任务) |
|---|---|
| AdamW | 31.1% |
| Muon | 38.9% |
| Pion | 85.6% |
在 8 种配置(GRPO/GMPO × Qwen3-1.7B/4B × MATH/GSM8K)下评估,Muon 在所有 RLVR 配置中均出现崩塌,而 Pion 在全部 8 种配置下超越 AdamW:
论文通过"低通 Muon(LPMuon)"消融验证高通滤波的必要性:将 Pion 的高通映射反转为低通(抑制大奇异值、放大小奇异值),结果在 RLVR 上退化至与 Muon 相似的崩塌行为,确认高通特性是 Pion 性能提升的关键。此外,per-head 模式消融表明,对 RLVR 场景中注意力投影的逐 head 独立处理是维持预训练异质性、避免 head 间均匀化的必要条件。
Pion 的 per-head 模式需要对注意力投影矩阵沿 head 维度进行重塑,并对每个 head 独立执行多项式迭代。虽然对当前规模的模型(如 Qwen3-1.7B/4B)开销可忽略不计,但对于拥有数千 head 的超大规模模型,这一操作的内存和计算代价可能成为瓶颈。
Pion 的 Promotion 和 Suppression 多项式系数((aₚ, bₚ, cₚ) 和 (aₛ, bₛ, cₛ))目前主要通过实验调优得到,缺乏严格的理论最优性证明。在不同的训练分布和模型结构下,最优系数可能不同。
Pion 中控制 Promotion 与 Suppression 步数比例的超参数 kₚ(其中 kₛ = 5 − kₚ)对不同下游任务可能需要手动调整,论文目前未提供跨任务的通用自适应选择策略。