Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

01 动机 · Motivation

Muon 是近期兴起的高效矩阵优化器，其核心操作是对动量矩阵做"矩阵符号"（matrix sign，即将所有奇异值统一归一到 1）。这一设计在 LLM 预训练中促进了各向同性探索（isotropic exploration），效果显著。然而，当 Muon 被移植到两种日益重要的后训练场景时，均匀谱白化暴露出根本性的失效模式：

VLA 跨模态训练的低秩梯度问题

在视觉-语言-动作（VLA）微调中，动作模块（action module）的梯度本质上是低秩的（low-rank）。Muon 的均匀白化会将这些低秩噪声方向同等放大，导致有效秩（effective rank, erank）在训练过程中急剧下降，最终降低动作预测精度。

RLVR 低信噪比梯度的模型崩塌

在带可验证奖励的强化学习（RLVR）中，梯度信噪比（SNR）远低于 SFT 场景（接近 1:1）。Muon 均匀放大所有奇异方向，将噪声信号等同对待，导致模型精度从初始检查点骤降至接近零："accuracy drops from the initial checkpoint and converges to near zero."

梯度 erank 变化曲线 — **Figure 1：**Muon 在 VLA 训练（VLA-Adapter on LIBERO Object）中的局限性。(a) 训练过程中各模块（V/L/A）梯度的平均有效秩（erank），每 900 步记录一次。(b) AdamW、Muon、Pion 的测试成功率曲线。(c) 总训练时间对比，Pion 的计算开销与 Muon 几乎相同。

优化器成功率对比 — **Figure 1：**Muon 在 VLA 训练（VLA-Adapter on LIBERO Object）中的局限性。(a) 训练过程中各模块（V/L/A）梯度的平均有效秩（erank），每 900 步记录一次。(b) AdamW、Muon、Pion 的测试成功率曲线。(c) 总训练时间对比，Pion 的计算开销与 Muon 几乎相同。

100%Pion — LIBERO Object 成功率

97.0%Muon — LIBERO Object 成功率

32.2%AdamW — LIBERO Object 成功率

85.6%Pion — 真实机器人平均成功率

"Muon's uniform spectral whitening enhances exploration during pretraining but leads to fundamental limitations beyond that setting in two increasingly important regimes: cross-modality vision-language-action training, where low-rank action gradients amplify noise, and reinforcement learning with verifiable rewards, where low-SNR gradients and per-head specialization requirements cause instability."

02 方法 · Method

Pion 保留 Muon 的动量更新框架（Θₜ = Θₜ₋₁ - η · msign(Mₜ)），但用两阶段高通滤波替代均匀归一（matrix sign）：先通过 Promotion 多项式放大所有奇异值，再通过 Suppression 多项式将大奇异值锚定在 1 并将小奇异值压制趋零。整个过程通过多项式迭代近似，无需显式 SVD，保持与 Muon 相同的计算效率。

Muon 的 Newton-Schulz 近似

Muon 用 Newton-Schulz 多项式迭代近似矩阵符号函数（msign）：每次迭代对每个奇异值 σ 施加映射 f_NS(σ) = aσ + bσ³ + cσ⁵，系数为 (a,b,c) = (3.4445, -4.7750, 2.0315)。经过 5 步迭代后，所有奇异值均被推向 1（均匀白化），无论其原始幅度大小。这对低秩梯度或低 SNR 场景是有害的，因为噪声方向与信号方向被等同对待。

Pion 的两阶段 Promotion + Suppression 机制

Pion 将 5 步 Newton-Schulz 迭代分成两个子阶段：

Promotion 阶段：多项式系数 (aₚ, bₚ, cₚ) = (1.875, -1.25, 0.375)，单调放大所有奇异值，作用类似"预增强"。
Suppression 阶段：多项式系数 (aₛ, bₛ, cₛ) = (0, 2.5, -1.5)，将已被放大到接近 1 的奇异值锚定在 1，同时将仍然较小的奇异值压制趋零。

整体映射为 f = fₛ^{kₛ} ∘ fₚ^{kₚ}，其中 kₚ + kₛ = 5。这种高通（high-pass）特性使 Pion 能区分主要奇异方向（信号）与噪声尾部（tail），实现选择性放大。

Muon NS iteration — **Figure 3：**奇异值映射函数 f(σ) 在 σ∈[0,1] 上的可视化，虚线为恒等参考。(a) Muon 的 NS 迭代逐步将所有奇异值均匀推向 1（均匀白化）。(b) Pion 的 Promotion 多项式 fₚ 单调放大。(c) Suppression 多项式 fₛ 实现高通效果。(d) Pion 最终组合，对主奇异值保持高响应，对尾部有效抑制。

Promotion polynomial — **Figure 3：**奇异值映射函数 f(σ) 在 σ∈[0,1] 上的可视化，虚线为恒等参考。(a) Muon 的 NS 迭代逐步将所有奇异值均匀推向 1（均匀白化）。(b) Pion 的 Promotion 多项式 fₚ 单调放大。(c) Suppression 多项式 fₛ 实现高通效果。(d) Pion 最终组合，对主奇异值保持高响应，对尾部有效抑制。

Per-Head 模式（RLVR 专用）

在 RLVR 场景中，注意力投影矩阵（Q/K/V projection）的不同 head 在预训练后已形成异质性特化（pretrained heterogeneity）。Pion 的 per-head 模式沿 head 维度对注意力投影进行重塑，对每个 head 独立施加高通 NS 迭代，从而在更新时保留各 head 的特化差异，而不引入额外的计算开销。

MATH500 per-head accuracy — **Figure 4：**Per-head 高通 NS 对 RLVR 的影响（Qwen3-1.7B，GRPO on MATH levels 3–5）。(a) AdamW、Muon (default/per-head)、Pion (default/per-head) 在 MATH500 上的准确率曲线。(b) 预训练前后 Q-projection 跨 head 方差：Pion per-head 模式在更新后保留了更大的跨 head 异质性，而 default 模式会均匀化各 head。

Cross-head Q-projection variance — **Figure 4：**Per-head 高通 NS 对 RLVR 的影响（Qwen3-1.7B，GRPO on MATH levels 3–5）。(a) AdamW、Muon (default/per-head)、Pion (default/per-head) 在 MATH500 上的准确率曲线。(b) 预训练前后 Q-projection 跨 head 方差：Pion per-head 模式在更新后保留了更大的跨 head 异质性，而 default 模式会均匀化各 head。

03 实验 · Experiments

实验覆盖两大后训练场景：(1) VLA 训练，在 LIBERO 基准和真实机器人上评估 VLA-Adapter 与 VLANeXt；(2) RLVR 后训练，在 MATH 和 GSM8K 数据集上用 GRPO/GMPO 算法评估 Qwen3-1.7B 与 Qwen3-4B。三个优化器（AdamW、Muon、Pion）共享其余所有超参数，仅优化器配置不同。

VLA 实验：LIBERO 基准

模型 / 数据集	AdamW	Muon	Pion
VLA-Adapter — LIBERO Object (1,500 steps)	32.2%	97.0%	100%
VLANeXt — LIBERO 平均	79.45%	93.65%	96.35%
VLANeXt — LIBERO-Plus 平均	64.57%	72.34%	75.93%

VLA-Adapter LIBERO success rates — **Figure 5：**VLA-Adapter 在 LIBERO 四个任务套件（Object、Spatial、Goal、Long）上的测试成功率（a）以及 Object 任务的训练曲线（b）。在相同训练预算下，Pion 在所有任务上均优于或持平 Muon，且大幅超越 AdamW。

VLA-Adapter Object training curve — **Figure 5：**VLA-Adapter 在 LIBERO 四个任务套件（Object、Spatial、Goal、Long）上的测试成功率（a）以及 Object 任务的训练曲线（b）。在相同训练预算下，Pion 在所有任务上均优于或持平 Muon，且大幅超越 AdamW。

真实机器人实验（π₀.₅ · Franka Research 3）

在 DROID 配置下使用 π₀.₅ 作为 backbone，对三项抓取放置任务各进行 30 次随机初始化测试：

优化器	平均成功率（3 个任务）
AdamW	31.1%
Muon	38.9%
Pion	85.6%

RLVR 实验：数学推理后训练

在 8 种配置（GRPO/GMPO × Qwen3-1.7B/4B × MATH/GSM8K）下评估，Muon 在所有 RLVR 配置中均出现崩塌，而 Pion 在全部 8 种配置下超越 AdamW：

GRPO Qwen3-1.7B MATH — **Figure 6（部分）：**RLVR 场景下验证准确率 vs. 训练步数（GRPO，Qwen3-1.7B/4B，MATH/GSM8K）。Muon 在所有配置中均崩塌至接近零准确率；Pion 在收敛速度和最终精度上均优于 AdamW。

GRPO Qwen3-1.7B GSM8K — **Figure 6（部分）：**RLVR 场景下验证准确率 vs. 训练步数（GRPO，Qwen3-1.7B/4B，MATH/GSM8K）。Muon 在所有配置中均崩塌至接近零准确率；Pion 在收敛速度和最终精度上均优于 AdamW。

消融实验

论文通过"低通 Muon（LPMuon）"消融验证高通滤波的必要性：将 Pion 的高通映射反转为低通（抑制大奇异值、放大小奇异值），结果在 RLVR 上退化至与 Muon 相似的崩塌行为，确认高通特性是 Pion 性能提升的关键。此外，per-head 模式消融表明，对 RLVR 场景中注意力投影的逐 head 独立处理是维持预训练异质性、避免 head 间均匀化的必要条件。

04 局限性 · Limitations

Note：以下限制来源于论文附录 M（Appendix M），为作者明确陈述（stated）的局限性。

Per-head 模式在超大模型中的计算开销

Pion 的 per-head 模式需要对注意力投影矩阵沿 head 维度进行重塑，并对每个 head 独立执行多项式迭代。虽然对当前规模的模型（如 Qwen3-1.7B/4B）开销可忽略不计，但对于拥有数千 head 的超大规模模型，这一操作的内存和计算代价可能成为瓶颈。

多项式系数缺乏理论保证

Pion 的 Promotion 和 Suppression 多项式系数（(aₚ, bₚ, cₚ) 和 (aₛ, bₛ, cₛ)）目前主要通过实验调优得到，缺乏严格的理论最优性证明。在不同的训练分布和模型结构下，最优系数可能不同。

超参数 kₚ 的选择缺乏自适应机制

Pion 中控制 Promotion 与 Suppression 步数比例的超参数 kₚ（其中 kₛ = 5 − kₚ）对不同下游任务可能需要手动调整，论文目前未提供跨任务的通用自适应选择策略。