理论与优化 · Theory & Optimization · arXiv 2025

Rethinking Muon Beyond Pretraining

Spectral Failures and High-Pass Remedies for VLA and RLVR
Chongyu Fan · Gaowen Liu · Mingyi Hong · Ramana Rao Kompella · Sijia Liu  |  Michigan State University · Cisco · University of Minnesota · IBM Research

Muon 优化器的均匀谱白化(uniform spectral whitening)在语言模型预训练中表现出色,但在跨模态 VLA 训练和 RLVR 后训练两种新兴场景下存在根本性缺陷。本文提出 Pion(sPectral hIgh-pass Optimization on momeNtum),以两阶段 Promotion+Suppression 机制替代均匀白化,在保持与 Muon 相同计算代价的同时,显著提升了 VLA 和 RLVR 的性能与稳定性。

arXiv · May 2026 VLA · RLVR · 优化器 Qwen3 · π₀.₅ · LIBERO 📄 arXiv:2605.19282
Muon optimizer Pion spectral whitening high-pass filtering VLA training RLVR Newton-Schulz iteration 奇异值滤波 机器人操作 大模型后训练

01 动机 · Motivation

Muon 是近期兴起的高效矩阵优化器,其核心操作是对动量矩阵做"矩阵符号"(matrix sign,即将所有奇异值统一归一到 1)。这一设计在 LLM 预训练中促进了各向同性探索(isotropic exploration),效果显著。然而,当 Muon 被移植到两种日益重要的后训练场景时,均匀谱白化暴露出根本性的失效模式:

VLA 跨模态训练的低秩梯度问题

在视觉-语言-动作(VLA)微调中,动作模块(action module)的梯度本质上是低秩的(low-rank)。Muon 的均匀白化会将这些低秩噪声方向同等放大,导致有效秩(effective rank, erank)在训练过程中急剧下降,最终降低动作预测精度。

RLVR 低信噪比梯度的模型崩塌

在带可验证奖励的强化学习(RLVR)中,梯度信噪比(SNR)远低于 SFT 场景(接近 1:1)。Muon 均匀放大所有奇异方向,将噪声信号等同对待,导致模型精度从初始检查点骤降至接近零:"accuracy drops from the initial checkpoint and converges to near zero."

梯度 erank 变化曲线 优化器成功率对比 训练时间对比
Figure 1:Muon 在 VLA 训练(VLA-Adapter on LIBERO Object)中的局限性。(a) 训练过程中各模块(V/L/A)梯度的平均有效秩(erank),每 900 步记录一次。(b) AdamW、Muon、Pion 的测试成功率曲线。(c) 总训练时间对比,Pion 的计算开销与 Muon 几乎相同。
100%Pion — LIBERO Object 成功率
97.0%Muon — LIBERO Object 成功率
32.2%AdamW — LIBERO Object 成功率
85.6%Pion — 真实机器人平均成功率
"Muon's uniform spectral whitening enhances exploration during pretraining but leads to fundamental limitations beyond that setting in two increasingly important regimes: cross-modality vision-language-action training, where low-rank action gradients amplify noise, and reinforcement learning with verifiable rewards, where low-SNR gradients and per-head specialization requirements cause instability."

02 方法 · Method

Pion 保留 Muon 的动量更新框架(Θₜ = Θₜ₋₁ - η · msign(Mₜ)),但用两阶段高通滤波替代均匀归一(matrix sign):先通过 Promotion 多项式放大所有奇异值,再通过 Suppression 多项式将大奇异值锚定在 1 并将小奇异值压制趋零。整个过程通过多项式迭代近似,无需显式 SVD,保持与 Muon 相同的计算效率。

Muon 的 Newton-Schulz 近似

Muon 用 Newton-Schulz 多项式迭代近似矩阵符号函数(msign):每次迭代对每个奇异值 σ 施加映射 f_NS(σ) = aσ + bσ³ + cσ⁵,系数为 (a,b,c) = (3.4445, -4.7750, 2.0315)。经过 5 步迭代后,所有奇异值均被推向 1(均匀白化),无论其原始幅度大小。这对低秩梯度或低 SNR 场景是有害的,因为噪声方向与信号方向被等同对待。

Pion 的两阶段 Promotion + Suppression 机制

Pion 将 5 步 Newton-Schulz 迭代分成两个子阶段:

整体映射为 f = fₛ^{kₛ} ∘ fₚ^{kₚ},其中 kₚ + kₛ = 5。这种高通(high-pass)特性使 Pion 能区分主要奇异方向(信号)与噪声尾部(tail),实现选择性放大。

Muon NS iteration
(a) Muon NS iteration — 均匀推向 1
Promotion polynomial
(b) Promotion fₚ — 单调放大
Suppression polynomial
(c) Suppression fₛ — 大值锚定 1,小值趋零
Pion combined high-pass
(d) Pion 高通组合 fₛ∘fₚ
Figure 3:奇异值映射函数 f(σ) 在 σ∈[0,1] 上的可视化,虚线为恒等参考。(a) Muon 的 NS 迭代逐步将所有奇异值均匀推向 1(均匀白化)。(b) Pion 的 Promotion 多项式 fₚ 单调放大。(c) Suppression 多项式 fₛ 实现高通效果。(d) Pion 最终组合,对主奇异值保持高响应,对尾部有效抑制。

Per-Head 模式(RLVR 专用)

在 RLVR 场景中,注意力投影矩阵(Q/K/V projection)的不同 head 在预训练后已形成异质性特化(pretrained heterogeneity)。Pion 的 per-head 模式沿 head 维度对注意力投影进行重塑,对每个 head 独立施加高通 NS 迭代,从而在更新时保留各 head 的特化差异,而不引入额外的计算开销。

MATH500 per-head accuracy
(a) MATH500 准确率:default vs. per-head
Cross-head Q-projection variance
(b) 跨 head Q-projection 方差对比
Figure 4:Per-head 高通 NS 对 RLVR 的影响(Qwen3-1.7B,GRPO on MATH levels 3–5)。(a) AdamW、Muon (default/per-head)、Pion (default/per-head) 在 MATH500 上的准确率曲线。(b) 预训练前后 Q-projection 跨 head 方差:Pion per-head 模式在更新后保留了更大的跨 head 异质性,而 default 模式会均匀化各 head。

03 实验 · Experiments

实验覆盖两大后训练场景:(1) VLA 训练,在 LIBERO 基准和真实机器人上评估 VLA-Adapter 与 VLANeXt;(2) RLVR 后训练,在 MATH 和 GSM8K 数据集上用 GRPO/GMPO 算法评估 Qwen3-1.7B 与 Qwen3-4B。三个优化器(AdamW、Muon、Pion)共享其余所有超参数,仅优化器配置不同。

VLA 实验:LIBERO 基准

模型 / 数据集AdamWMuonPion
VLA-Adapter — LIBERO Object (1,500 steps)32.2%97.0%100%
VLANeXt — LIBERO 平均79.45%93.65%96.35%
VLANeXt — LIBERO-Plus 平均64.57%72.34%75.93%
VLA-Adapter LIBERO success rates
(a) 四个任务套件的最终成功率
VLA-Adapter Object training curve
(b) LIBERO Object 成功率 vs. 训练步数
Figure 5:VLA-Adapter 在 LIBERO 四个任务套件(Object、Spatial、Goal、Long)上的测试成功率(a)以及 Object 任务的训练曲线(b)。在相同训练预算下,Pion 在所有任务上均优于或持平 Muon,且大幅超越 AdamW。

真实机器人实验(π₀.₅ · Franka Research 3)

在 DROID 配置下使用 π₀.₅ 作为 backbone,对三项抓取放置任务各进行 30 次随机初始化测试:

优化器平均成功率(3 个任务)
AdamW31.1%
Muon38.9%
Pion85.6%

RLVR 实验:数学推理后训练

在 8 种配置(GRPO/GMPO × Qwen3-1.7B/4B × MATH/GSM8K)下评估,Muon 在所有 RLVR 配置中均出现崩塌,而 Pion 在全部 8 种配置下超越 AdamW:

GRPO Qwen3-1.7B MATH GRPO Qwen3-1.7B GSM8K GRPO Qwen3-4B MATH GRPO Qwen3-4B GSM8K
Figure 6(部分):RLVR 场景下验证准确率 vs. 训练步数(GRPO,Qwen3-1.7B/4B,MATH/GSM8K)。Muon 在所有配置中均崩塌至接近零准确率;Pion 在收敛速度和最终精度上均优于 AdamW。

消融实验

论文通过"低通 Muon(LPMuon)"消融验证高通滤波的必要性:将 Pion 的高通映射反转为低通(抑制大奇异值、放大小奇异值),结果在 RLVR 上退化至与 Muon 相似的崩塌行为,确认高通特性是 Pion 性能提升的关键。此外,per-head 模式消融表明,对 RLVR 场景中注意力投影的逐 head 独立处理是维持预训练异质性、避免 head 间均匀化的必要条件。

04 局限性 · Limitations

Note:以下限制来源于论文附录 M(Appendix M),为作者明确陈述(stated)的局限性。
Per-head 模式在超大模型中的计算开销

Pion 的 per-head 模式需要对注意力投影矩阵沿 head 维度进行重塑,并对每个 head 独立执行多项式迭代。虽然对当前规模的模型(如 Qwen3-1.7B/4B)开销可忽略不计,但对于拥有数千 head 的超大规模模型,这一操作的内存和计算代价可能成为瓶颈。

多项式系数缺乏理论保证

Pion 的 Promotion 和 Suppression 多项式系数((aₚ, bₚ, cₚ) 和 (aₛ, bₛ, cₛ))目前主要通过实验调优得到,缺乏严格的理论最优性证明。在不同的训练分布和模型结构下,最优系数可能不同。

超参数 kₚ 的选择缺乏自适应机制

Pion 中控制 Promotion 与 Suppression 步数比例的超参数 kₚ(其中 kₛ = 5 − kₚ)对不同下游任务可能需要手动调整,论文目前未提供跨任务的通用自适应选择策略。