这项由穆罕默德·本·扎耶德人工智能大学(MBZUAI)与南京大学联合开展的研究,发表于2026年第43届国际机器学习大会(ICML),论文预印本编号为arXiv:2605.10468,于2026年5月11日公开。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。
**厨房里来了陌生人**
设想一位经验丰富的老厨师,花了几十年时间把一间厨房布置得井井有条:刀具按照自己的握法磨利,锅碗按照自己的烹饪节奏摆放,调料架按照自己的配方逻辑排列。这一天,来了一位新手助理厨师,他有着截然不同的烹饪习惯——他不但改变了刀的摆放位置,还把调料架重新排列了顺序,甚至换了一套全新的切割方式。最后做出来的菜,不能说难吃,但总感觉少了那位老厨师特有的味道。
这个厨房故事,正是这篇论文所研究的核心问题的绝妙写照。在人工智能领域,训练一个大型语言模型(也就是类似ChatGPT这种能理解和生成文字的AI)分为两个阶段:第一阶段叫"预训练",相当于让这位厨师从零开始学习所有烹饪基础知识,耗时耗力,通常要消耗巨大的计算资源;第二阶段叫"微调",相当于让已经具备基础技能的厨师专门学习某一道菜,比如如何做数学题、如何写代码。
在这两个阶段中,AI研究者需要选择一种"优化器"——也就是控制AI如何一步一步调整自身参数的工具,可以把它理解为厨师的烹饪风格或操作习惯。长期以来,业界主流选择是一种叫做"Adam"的优化器,它已经被用于训练几乎所有广为人知的开源大模型。然而近年来,一种叫做"Muon"的新兴优化器开始崭露头角,它在预训练阶段展现出约两倍于Adam的计算效率,还被用于训练了万亿参数级别的顶尖模型,包括Kimi K2/2.5和GLM-4.5/4.7。
问题随之而来:既然大多数现有模型都是用Adam预训练的,那能不能在微调阶段切换到Muon?研究者们发现,答案是"不能直接切换"——这正是这篇论文要探究的"优化器不匹配"问题,也就是那位新手助理厨师闯入老厨师厨房时发生的那种混乱。
**一、Adam与Muon:两种截然不同的"烹饪风格"**
要理解为什么不能随意切换,首先得明白这两位"厨师"的工作方式有多大差异。
Adam优化器的工作原理,可以用一位极度细心的厨师来比喻。这位厨师在调整每一种调料的用量时,会分别记录每种调料历史上的波动幅度——如果某种调料用量一直比较稳定,这次就可以大胆调整;如果某种调料历来变化剧烈,这次就要保守一点。用技术语言来说,Adam为每个参数单独计算一个自适应的学习步长,依赖的是梯度的"一阶矩"(平均方向)和"二阶矩"(波动幅度)。这种逐元素的精细调整,使得Adam在各种任务上都表现稳定。
Muon优化器的工作方式则完全不同,更像一位注重整体协调的编舞者。它不关心每个舞者(参数)各自的小动作,而是把整个舞团的动作统一正交化处理——确保每个方向的移动步幅大致相等,没有哪个方向特别突出或特别被忽略。用技术语言来说,Muon对梯度矩阵进行"正交化"处理,使得更新后的矩阵的奇异值趋于均匀分布。这个过程通过一种叫做"牛顿-舒尔茨迭代"的数学工具来近似实现。
这两种截然不同的工作风格,导致它们训练出的模型具有完全不同的"内部结构"。研究团队通过理论分析和实验证明,Adam倾向于训练出"最大范数较小"的权重矩阵(每个参数的绝对值被控制在较小范围),而Muon则倾向于训练出"谱范数较小"的权重矩阵(矩阵的奇异值分布更均匀)。
研究团队用一个简化的线性回归问题严格证明了这一点,并给出了定理:SignGD(Adam的简化代理)从零初始化出发,最终收敛到最小化最大范数的解;而Muon从零初始化出发,最终收敛到最小化谱范数的解。这两个解通常是完全不同的两个点。
在实际预训练实验中,研究团队训练了两个5.61亿参数的NanoChat模型,一个用Adam,一个用Muon,并对比了它们的注意力权重矩阵的"稳定秩"(一种衡量矩阵有效维度利用率的指标)。结果显示,Muon训练的模型在整个训练过程中保持了明显更高的稳定秩,说明Muon确实赋予了模型权重一种更"高维度均匀分布"的谱结构,这与Adam训练出的权重有着根本性的不同。
**二、切换优化器为何会"毁掉"已有知识**
现在可以理解那位新手助理厨师闯入老厨师厨房时发生了什么。老厨师(Adam预训练的模型)把厨房(权重矩阵)按照自己的习惯整理得恰到好处——调料按照最大范数的逻辑摆放,每个参数的绝对值都被控制在精心校准的范围内。新手助理(Muon微调)进来之后,却按照自己的谱范数逻辑重新排列一切,这与厨房原有的秩序格格不入,原本精心建立的知识结构被打乱了。
研究团队通过一个巧妙的实验直观展示了这种"打乱"效应。他们对Adam预训练的模型分别用Adam和Muon进行微调,并绘制了学习率扫描曲线。结果发现,当使用"错配"的Muon进行微调时,最优学习率向左偏移(变得更小),而且即使在最优学习率下,最终能达到的最好性能也比"匹配"的Adam微调要差。
这意味着什么?这意味着在不匹配的情况下,模型对更新幅度变得极度敏感——一旦学习率稍微大一点,Muon就会把预训练好的权重结构破坏掉,造成性能下降。而且即便小心翼翼地控制学习率,也无法完全弥补这种结构上的不兼容。这正是"不匹配破坏了预训练知识"的直接证据。
这种不匹配在两个方向上都存在——不仅Adam预训练的模型用Muon微调会出问题,Muon预训练的模型用Adam微调同样会出问题。研究团队通过在WikiText-2数据集上的对照实验确认了这种对称性:对于Muon预训练的模型,Full-Muon微调(匹配)比Full-Adam微调(不匹配)性能好0.023个归一化困惑度单位;对于Adam预训练的模型,Full-Adam微调(匹配)比Full-Muon微调(不匹配)同样更好,差距为0.009个单位。两者都存在明显的匹配优势。
**三、LoRA:一道让两位厨师和平共处的隔离墙**
发现了问题,研究团队随即思考:有没有什么办法让Muon也能用于Adam预训练的模型?
关键的洞察来自于对不匹配问题本质的理解:不匹配之所以有害,是因为Muon会把Adam精心构建的权重结构改变得面目全非。那么,如果能限制Muon能改动的范围,让它只能在有限的空间内折腾,是不是就能避免破坏原有结构?
这个想法的实现,正是通过一种叫做"LoRA"(低秩适配,Low-Rank Adaptation)的技术。LoRA的原理用厨房比喻来说,就是在原来老厨师的厨房里,给新手助理划出一块专属的小操作台,并且这块操作台只有极为有限的空间(低秩约束)。新手助理只能在这块小操作台上工作,完全不得碰触老厨师精心布置的主要区域。最终端上桌的菜肴,是老厨师的基础配方(冻结的预训练权重)加上新手助理在小操作台上捣鼓出的微小补充(低秩矩阵)的叠加。
具体来说,LoRA在微调时冻结了所有预训练权重,只引入两个额外的低秩矩阵A和B(其中秩r远远小于原始矩阵的维度),训练时只更新这两个小矩阵。这带来了两重保护:一是预训练权重本身被完全锁死,Muon根本没有机会直接改动它们;二是低秩约束天然限制了更新的幅度,即便Muon在小矩阵上折腾,影响到整体模型的空间也非常有限。
研究团队不仅在实验上验证了这一点,还在理论上给出了严格的分析。在那个简化的线性回归框架内,他们证明了LoRA约束下的最坏情况不匹配放大倍数,在Adam视角下不超过秩r,在Muon视角下不超过√r。当秩r=1时,放大倍数等于1,意味着完全消除了不匹配;当A等于单位矩阵时,则退化回全量微调的情形。这个理论结果非常直观地说明了为什么更低的秩对缓解不匹配更有效。
回到WikiText-2的实验数据:引入LoRA之后,Adam预训练模型上的不匹配差距从0.009下降到了0.002,缩小了78%;Muon预训练模型上的差距则缩小了约39%。图中也清楚地显示,LoRA的学习率扫描曲线中,匹配和不匹配的差距明显收窄,Muon在LoRA框架下甚至能使用更大的学习率。
**四、语言理解任务:从勉强达标到与Adam旗鼓相当**
为了验证LoRA能否在实际任务中缓解不匹配,研究团队在多个自然语言理解基准上进行了系统性实验。
第一个测试场景是GLUE基准,这是评估AI模型理解英语能力的一套经典测试,包含句子可接受性判断(CoLA)、文本蕴含(MNLI)、语义相似度(MRPC)、问题与段落匹配(QNLI)以及情感分类(SST-2)五项任务。测试所用的模型是T5-Base,一个用Adafactor(Adam的内存高效变体)预训练的模型,参数量约2.2亿。
结果非常清晰地支持了研究团队的假设。在全量微调的情况下,Full-Muon在五项任务上的平均准确率为88.77%,而Full-Adam为89.14%,Muon落后了约0.37个百分点。这个差距不算悬殊,但在这类任务上已经是统计显著的差异。
切换到LoRA框架后,局面发生了逆转。LoRA-Muon的平均准确率达到88.97%,LoRA-Adam为88.93%,Muon不但追平了Adam,还略微超出。研究团队还测试了Muon的一个增强版本"Muon-PE",它使用了一种叫做"极地快车"(Polar Express)的改进算法来更精确地进行正交化运算,结果LoRA-Muon-PE以89.20%的平均准确率高居所有方法之首,甚至超过了Full-Adam。
值得关注的是,PE的改进在全量微调时也有帮助,Full-Muon-PE达到了88.92%,比普通Full-Muon的88.77%有所提升,但仍未能追上Full-Adam的89.14%,说明PE虽然让Muon更接近Adam,但在全量微调场景下依然存在结构不兼容的根本问题,LoRA才是真正消弭差距的关键。
**五、语言生成任务:数学、代码、常识推理的三重考验**
GLUE任务可能还不够有说服力,毕竟差距本身就不大。研究团队进一步在更具挑战性的生成任务上进行了测试,使用的是Llama 2-7B,一个7亿参数规模的Adam预训练模型,在三种不同任务上分别进行微调。
数学推理任务使用MetaMathQA数据集的10万条样本进行训练,在GSM8K小学数学题测试集上评估准确率。代码生成任务使用CodeFeedback数据集的10万条样本,在HumanEval上评估代码能通过测试的比例(Pass@1)。常识推理任务使用WizardLM指令数据集的5.2万条样本,在ARC、HellaSwag、PIQA等六个常识推理基准上综合评估。
在数学任务上,不匹配问题最为突出:Full-Adam达到了61.66%的准确率,而Full-Muon只有57.37%,差距将近5个百分点,这在实际应用中是非常显著的性能差异。引入LoRA后,LoRA-Adam为59.64%,LoRA-Muon为59.57%,两者几乎完全持平,不匹配问题得到了有效缓解。
在代码任务上,不匹配问题相对温和:Full-Adam达到35.57%,Full-Muon为34.35%,差距约1.2个百分点。LoRA框架下,LoRA-Muon(29.47%)甚至略高于LoRA-Adam(27.85%),Muon实现了超越。
在常识推理任务上,不匹配问题几乎可以忽略不计:Full-Adam和Full-Muon分别为67.52%和67.57%,差距不足0.1个百分点。LoRA框架下,二者同样旗鼓相当。
研究团队还将实验扩展到了130亿参数的Llama 2-13B,在代码生成任务上,LoRA-Adam达到33.17%,LoRA-Muon达到34.76%,Muon仍然表现良好,与7B模型的趋势一致。
**六、视觉任务:跨越语言领域,结论同样成立**
这项研究不仅局限于文本处理,研究团队还把实验延伸到了图像分类领域,以验证结论的普适性。
测试所用的模型是CLIP ViT-B/32,一种能同时理解图片和文字的大型视觉模型,同样是用Adam预训练的。研究团队冻结了模型的文字理解部分,只对图像理解部分进行微调,分别在六个图像分类数据集上测试:斯坦福汽车识别(StanfordCars)、纹理识别(DTD)、德国交通标志识别(GTSRB)、遥感图像分类(RESISC45)、场景识别(SUN397)以及街道数字识别(SVHN)。
在全量微调的情况下,Full-Adam和Full-Muon的平均准确率分别为86.55%和86.05%,差距约0.5个百分点,比语言任务中的不匹配问题要小。这个现象本身也很有意思,说明不匹配问题的严重程度因任务而异。
切换到LoRA框架后,LoRA-Muon(84.48%)和LoRA-Muon-PE(84.71%)都超过了LoRA-Adam(84.17%),在视觉领域,Muon同样成功实现了对Adam的追平乃至超越。
**七、秩越高,不匹配问题越严重——LoRA秩的"甜蜜区间"**
LoRA技术有一个重要的参数:秩(rank),可以把它理解为给新手助理划出的操作台有多大。秩越小,操作台越小,对原有厨房的干扰越小,但能做的菜式也越有限;秩越大,操作台越大,表达能力越强,但对原有厨房的干扰也越大,当秩等于原始矩阵的维度时,就等同于全量微调了。
研究团队系统地测试了从2到512的各种秩,结果非常能说明问题。在数学推理任务上(不匹配问题最严重的场景),当秩在2到32之间时,LoRA-Muon一直优于或持平于LoRA-Adam。但从秩64开始,LoRA-Muon的性能开始下滑,而LoRA-Adam则继续提升,到秩512时(接近全量微调的表达能力),二者的差距已经与全量微调时几乎相同。这与理论预测完全一致:随着秩增大,LoRA越来越接近全量微调,不匹配问题的危害也随之浮现。
在代码生成任务上(不匹配问题较轻微),LoRA-Muon和LoRA-Adam在所有测试的秩上都表现接近,没有出现高秩下Muon崩溃的现象。
在视觉任务的斯坦福汽车识别上(不匹配问题也较轻微),LoRA-Muon在几乎所有秩上都优于LoRA-Adam,优势甚至随秩增大而扩大,充分体现了Muon本身较快的收敛速度在低不匹配场景下能够发挥作用。
这些实验结果告诉我们一个很实用的建议:在不匹配问题严重的场景(如数学任务)下,应该选择中等偏低的秩(比如8到32),在充分缓解不匹配的同时保留足够的表达能力;当不匹配问题本身不严重时,可以适当使用更高的秩,充分发挥Muon收敛速度的优势。
**八、灾难性遗忘:不匹配破坏的不只是新任务表现,还会损害旧知识**
研究团队还从另一个角度验证了"不匹配破坏预训练知识"这个核心假设——通过测量灾难性遗忘来直接量化知识损失。
"灾难性遗忘"是AI领域的一个经典问题,指模型在学习新技能时,把以前学会的知识忘得一干二净,就像一个人花了一个月全力备考驾照,却发现自己把语文和数学都忘了。
实验设计是:把Llama 2-7B在数学数据集上微调完毕后,去测试它在完全无关的常识推理任务上的表现。如果微调破坏了预训练期间学到的常识知识,常识推理分数就会下降。
结果非常能说明问题。未微调的原始模型在常识推理任务上平均得分63.5%。经过数学微调后,Full-Adam的得分降到56.8%(下降6.7个百分点),Full-Muon降到55.4%(下降8.1个百分点),Full-Muon-PE更是降到54.1%(下降9.4个百分点)。
关键在于:Full-Muon不仅在数学任务上比Full-Adam差(参见前文,57.37% vs 61.66%),在常识遗忘程度上也比Full-Adam更严重。这说明不匹配问题并不是Muon"学得少"(否则遗忘应该也少),而是Muon"以更具破坏性的方式改变了权重结构",一边没有充分学到数学知识,一边还把原有的常识知识给抹掉了更多。
引入LoRA后,LoRA-Adam的常识推理得分为57.7%,LoRA-Muon为56.9%,都明显高于各自全量微调的版本,说明LoRA确实有效保护了预训练知识不被微调破坏。
研究团队还通过直接测量权重距离(微调后的权重与预训练权重之间的余弦距离和L2距离)来进一步确认这一点。在数学任务的全量微调中,Muon的余弦距离是Adam的5.61到7.36倍,也就是说Muon把权重从预训练起点推得更远。而在LoRA框架下,这个比例反转了:Muon的余弦距离只有Adam的0.62到0.82倍,Muon反而比Adam更"温和",更接近预训练起点。
在常识推理任务(不匹配轻微)上,全量微调时Muon的余弦距离本来就已经比Adam小(0.65到0.75倍),LoRA进一步把它压缩到0.15到0.18倍,说明Muon在不存在严重不匹配问题时,本身就会更节制地修改权重。
**九、现有LoRA变体与Muon的兼容性:不是所有技巧都能直接移植**
既然LoRA能让Muon与Adam媲美,那么那些针对LoRA优化开发的各种变体方法,能否在Muon上发挥同样的作用?研究团队在GLUE基准上系统测试了几种主流LoRA变体,结果揭示了一个重要的警示。
研究团队将LoRA变体分为两类:一类是"与优化器无关"的变体,可以直接套用在Muon上;另一类是"修改训练算法"的变体,与Muon不兼容。
在与优化器无关的变体中,rsLoRA将LoRA的缩放因子从α/r改为α/√r,能稳定不同秩下的训练;LoRA-One用一步梯度近似来初始化LoRA矩阵以加速早期收敛;PiSSA则用预训练权重的主要奇异分量来初始化,使LoRA更接近全量微调的轨迹。
实验结果显示,这三种变体都能提升LoRA-Adam的性能:rsLoRA-Adam达到89.11%,LoRA-One-Adam达到89.16%,PiSSA-Adam达到88.95%,相比基础LoRA-Adam的88.93%都有不同程度的提升。但是,把这三种变体应用到LoRA-Muon-PE上,结果却并不理想:rsLoRA-Muon-PE为89.12%,LoRA-One-Muon-PE为89.09%,PiSSA-Muon-PE为89.12%,都低于基础LoRA-Muon-PE的89.20%,不但没有提升反而略有下降。
为什么会这样?研究团队给出了清晰的解释:rsLoRA增大了有效的更新幅度(通过更大的缩放因子),这等于扩大了新手助理的操作台,使得不匹配问题的影响重新浮现;LoRA-One和PiSSA则试图让LoRA的更新轨迹更接近全量微调,但越接近全量微调,不匹配问题就越严重,反而适得其反。
研究团队还测试了需要修改训练算法的变体:AdaLoRA动态分配不同层的秩预算;LoRA-Pro优化LoRA矩阵使其更好地近似全量微调的梯度更新;LoRA-RITE通过不变变换平衡来优化LoRA训练;DoRA将权重分解为幅度和方向分别更新。这些方法都不能直接用于Muon,只能用Adam来运行。结果显示,这些复杂方法与基础LoRA-Adam相比优势有限(89.11%、89.00%、89.01%,vs LoRA-Adam的88.93%),而且都低于最简单的LoRA-Muon-PE(89.20%)。这一结果颇具说服力地展示了Muon在LoRA框架下的竞争力。
**十、计算效率:Muon的内存优势是真实存在的**
论文还专门比较了Adam和Muon的实际计算效率,以确保这不只是一篇"理论上可行"的研究。
在LoRA微调框架下(这也是文章主要推荐的使用场景),LoRA-Muon比LoRA-Adam每步慢1.1到1.2倍(对于Llama 2-7B)或1.0到1.1倍(对于CLIP),这个开销主要来自牛顿-舒尔茨正交化运算,可以接受。
在全量微调场景下,数字看起来差异很大(Muon慢2.3到2.9倍),但这个对比并不公平——Full-Adam需要使用DeepSpeed ZeRO-2这种特殊的分布式内存管理技术才能装进8块GPU,而Full-Muon的内存占用更小,用普通的标准分布式训练框架就够了。在单GPU的CLIP实验上(两种方法都不需要特殊内存优化),Full-Muon只比Full-Adam慢1.0到1.2倍。
内存方面,Muon只需要存储一个动量缓冲区,而Adam需要同时存储动量缓冲区和二阶矩缓冲区两个,等于Muon节省了50%的优化器状态内存——对于Llama 2-7B来说,这相当于在FP32精度下节约了约14GB的显存,这是一个非常实际的硬件优势。
**归根结底,这项研究告诉了我们什么**
说到底,这篇论文回答了一个让很多AI工程师头疼的实际问题:我能用Muon来微调那些Adam训练的模型吗?答案是:直接用不行,但通过LoRA就可以。
核心道理其实很简单:Adam和Muon就像两位有着截然不同整理习惯的厨师,他们的工作结果具有根本不同的内在结构。如果强行让一位厨师去改造另一位厨师的厨房,必然造成混乱。但如果给新来的厨师划出一块有限的专属操作台(这就是LoRA),他就能在不破坏整体厨房秩序的前提下,施展自己的技艺。
从实用的角度来看,这个发现相当重要。Muon的内存占用只有Adam的一半,在计算效率上有明显优势,而且它的收敛速度在很多情况下比Adam更快。现在知道,只要配合LoRA使用,任何Adam预训练的模型都可以用Muon进行微调,性能不会打折,内存反而还能省下来。
这里有几点实操建议值得记住:秩的选择要适中,太大的秩会让不匹配问题重新出现;Muon的最优学习率通常和Adam不同,需要单独调整;那些专门为Adam优化的LoRA变体不要直接搬来给Muon用,未必有效甚至有害;以及,目前关于不匹配问题的理论解释仍然不完整,也许未来还有更优雅的解决方案等待发现。
这项研究留下了一些开放的问题:不同任务之间不匹配严重程度差异悬殊(数学任务和常识推理任务的差距如此之大),背后的原因是什么?除了LoRA,是否还有其他约束更新的方式同样有效?能否在微调前就通过某种初始化或热身策略来弥合两种优化器造成的结构差异?这些问题为后来者指出了清晰的研究方向。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.10468查阅这篇完整论文,其中包含严格的数学证明和完整的实验数据。
Q&A
Q1:Muon优化器和Adam优化器有什么核心区别?
A:Adam会对每个参数单独计算自适应步长,依靠历史梯度的均值和方差来决定每次更新多少。Muon则对整个权重矩阵的梯度进行正交化处理,使各个方向的更新步幅趋于均匀。这导致Adam训练的模型权重每个参数的绝对值较小,而Muon训练的模型权重矩阵的奇异值分布更均匀,两种结构根本不同,互相切换就会出问题。
Q2:为什么LoRA能缓解Muon和Adam之间的优化器不匹配问题?
A:LoRA在微调时完全冻结预训练权重,只更新两个额外的低秩小矩阵。这样Muon就无法直接改动Adam精心构建的权重结构,只能在有限的低秩空间内操作,对原有模型的干扰极小。理论上已证明,LoRA下的最坏不匹配放大倍数不超过秩r,当秩为1时不匹配效应完全消失,从数学上保证了低秩约束能抑制不匹配危害。
Q3:用Muon微调Adam预训练模型时,LoRA的秩选多大合适?
A:这取决于具体任务的不匹配严重程度。对于数学推理这类不匹配严重的任务,建议选择中等偏低的秩(大约8到32),过高的秩会让Muon的更新幅度接近全量微调,不匹配问题会重新显现。对于常识推理或代码生成这类不匹配较轻微的任务,可以使用更高的秩,充分发挥Muon收敛速度快的优势。