
机器之心报道
编辑:陈陈、佳琪
月之暗面和 DeepSeek 这次又「撞车」了。
上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚!DeepSeek 梁文锋亲自挂名,公开新注意力架构 NSA》。
这次是开源。
上周五,DeepSeek 刚刚官宣这周要连续开源 5 个代码库,却被月之暗面深夜截胡了。
昨天,月之暗面抢先一步开源了改进版 Muon 优化器,比 AdamW 优化器计算效率提升了 2 倍。

团队人员表示,原始 Muon 优化器在训练小型语言模型方面表现出色,但其在扩展到更大模型方面的可行性尚未得到证明。因此,团队人员确定了两种对扩展 Muon 至关重要的技术:
这些技术使得 Muon 能够在大规模训练中直接使用,而无需调整超参数。Scaling law 实验表明,与计算最优训练的 AdamW 相比,Muon 的计算效率提升了 2 倍。
基于这些改进,月之暗面推出了 Moonlight,这是一个 3B/16B 参数的 Mixture-of-Expert(MoE)模型,使用 Muon 进行了 5.7 万亿 tokens 的训练。该模型刷新了当前的「帕累托前沿」,换句话说,在相同的训练预算下,没有其他模型能在所有性能指标上同时超越它。
与之前的模型相比,Moonlight 也以更少的训练 FLOPs 获得了更好的性能。
如下图所示,该研究进行了 Scaling law 研究,将 Muon 与强大的 AdamW 基线进行了比较,结果展示了 Muon 的卓越性能。Muon 实现了与 AdamW 训练相当的性能,同时仅需要大约 52% 的训练 FLOP。

月之暗面不但开源了内存优化且通信高效的 Muon 实现代码,并且还发布了预训练、指令调优以及中间检查点,以支持未来的研究。
论文《 MUON IS SCALABLE FOR LLM TRAINING 》。

研究介绍
扩展 Muon
Muon 优化器为 OpenAI 研究者 Keller Jordan 等人在 2024 年提出的,他们的研究表明在小规模训练中 Muon 的表现显著优于 AdamW。
但月之暗面发现,当将其扩展到训练更大模型并使用更多 token 时,模型性能提升逐渐减弱。他们观察到,权重和层输出的 RMS 值持续增长,最终超出了 bf16 的高精度范围,这可能会损害模型的性能。
为了解决这个问题,月之暗面在 Muon 中引入了标准的 AdamW(Loshchilov 等人,2019)权重衰减机制。
为了探究这一机制,研究者对 Muon 进行了有无权重衰减的实验,他们训练了一个包含 800M 参数和 100B token(约为最优训练 token 量的 5 倍)的模型。图 2 展示了使用 AdamW、无权重衰减的原始 Muon 以及带权重衰减的 Muon 训练的模型的验证损失曲线。

结果显示,虽然原始 Muon 在初期收敛速度更快,但一些模型权重随时间的推移增长过大,可能会影响模型的长期性能。
加入权重衰减后解决了这一问题 —— 结果表明,带权重衰减的 Muon 优于原始 Muon 和 AdamW,获得了更低的验证损失。公式 3 为表达式,其中 λ 为权重衰减比率。

一致的 RMS 更新。研究者发现 Adam 和 AdamW 的一个重要特性是,它们将更新的 RMS 维持在 1 左右。然而,月之暗面发现 Muon 更新 RMS 会根据参数矩阵形状的变化而变化,具体如下引理 1 所示:

为了在不同形状矩阵之间保持一致的 RMS 更新,该研究通过来扩展 Muon 矩阵更新,从而抵消引理 1 中提到的影响。

在实际应用中,研究者通常将 AdamW 与 Muon 结合使用,以处理非矩阵参数。本文希望优化器超参数(学习率 η、权重衰减 λ)能够在矩阵参数和非矩阵参数之间共享。
因此他们提出将 Muon 更新的 RMS 调整到与 AdamW 相似的范围。他们通过以下调整将 Muon 更新 RMS 缩放至这一范围:

分布式 Muon
月之暗面团队还提出了一种基于 ZeRO-1 的分布式解决方案,称为分布式 Muon(Distributed Muon)。分布式 Muon 遵循 ZeRO-1 在数据并行(DP)上对优化器状态进行划分,并与普通的 ZeRO-1 AdamW 优化器相比引入了两个额外的操作,算法 1 描述了分布式 Muon 的实现。

实验
RMS 的一致性
为了使所有矩阵参数更新的 RMS 值与 AdamW 的 RMS 保持一致,研究团队尝试了两种方法来控制参数更新的 RMS,并将其与只用了 AdamW 的基线的 RMS 进行了对比。
由于大规模训练模型时,会出现各种意料之外的情况,因此,研究团队测试了 Muon 对训练早期阶段的影响。当矩阵维度差异增大时,更新 RMS 不一致的问题会更加明显。该团队对模型架构进行了微调,用标准的 2 层 MLP 替换了 Swiglu MLP,并将其矩阵参数的形状从 [H, 2.6H] 改为 [H, 4H]。
团队评估了模型的损失,并监控了关键参数的 RMS,尤其是形状为 [H, H] 的注意力查询权重和形状为 [H, 4H] 的 MLP 权重。

实验结果表明(见表 1),Update Norm 和 Adjusted LR 均优于基线方法,且 Adjusted LR 的计算成本更低,因此被选用于后续实验。
Muon 的 Scaling Law
为了与 AdamW 公平比较,该团队在一系列基于 Llama 架构的模型上对 Muon 进行了拓展。
对于 Muon,由于其 RMS 与 AdamW 匹配,团队直接复用了 AdamW 的超参数。


实验结果显示,拟合的 Scaling Law 曲线表明,在计算最优设置下,Muon 仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能。这进一步说明了 Muon 在大规模语言模型训练中的高效性。
使用 Muon 进行预训练
为了评估 Muon 在模型架构中的表现,该团队使用 DeepSeek-V3-Small 架构从头开始预训练了 Moonlight 模型。
Moonlight 模型总共进行了 5.7 万亿 tokens 的训练,但在训练到 1.2 万亿 tokens 的阶段,团队将其与 DeepSeek-V3-Small(使用 1.33T tokens 训练的 2.4B/16B 参数 MoE 模型)和 Moonlight-A(与 Moonlight 设置相同,但使用 AdamW 优化器)进行了比较。如表 4 所示,Moonlight 在语言、数学和编码等任务上都显著优于 Moonlight-A,证明了 Muon 的扩展优势。

在完整训练后,Moonlight 与类似规模的开源模型(如 LLAMA3-3B、Qwen2.5-3B 和 Deepseek-v2-Lite)进行了比较。结果显示,Moonlight 在性能上优于使用相同数量 tokens 训练的模型,与更大参数规模模型相比,也较有竞争力。

此外,研究团队还发现,Muon 可以让模型的权重更新更「多样化」,尤其在 MoE 模型中表现突出。

在微调阶段,在预训练和微调阶段都使用 Muon,模型表现会比用 AdamW 的组合更好,但如果微调和预训练的优化器不一致,优势就不明显了。

更多细节,请参阅论文原文。
https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file
https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
https://x.com/Kimi_Moonshot/status/1893379158472044623


APP专享直播
热门推荐
永辉超市:北京第三家“学习胖东来”超市开业,一线员工平均薪资上涨一千多元 收起永辉超市:北京第三家“学习胖东来”超市开业,一线员工平均薪资上涨一千多元
- 2025年03月28日
- 08:25
- APP专享
- 扒圈小记
32,336
生双胞胎17岁代孕女孩已嫁人 知情人称17岁代孕女孩有生育史
- 2025年03月27日
- 11:21
- APP专享
- 扒圈小记
20,384
妻子举报上海一财政局主任科员出轨副科长,纪委回应
- 2025年03月28日
- 09:18
- APP专享
- 北京时间
17,019

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 07:15:50
调查报道《起底“医保取现”背后“回流药”销售网》播出后,国家卫生健康委相关负责人表示,按照《医疗机构药事管理规定》要求,医疗机构必须制订本机构药品采购工作流程;建立健全药品成本核算和账务管理制度;严格执行药品购入检查、验收制度;不得购入和使用不符合规定的药品。国家卫生健康委对此类违法行为保持“零容忍”态度,将协同医保、药监等部门,责成武汉等地压实属地责任,加强对医疗机构穿透式监管,持续严厉打击违法违规行为,切实保障人民群众健康权益。 -
趋势领涨今天 04:23:50
【飞天价格继续下跌 25年飞天茅台原箱批价报2165元/瓶】今日酒价披露的批发参考价显示,3月29日,25年飞天茅台原箱较前一日下跌5元,报2165元/瓶;24年飞天茅台原箱较前一日下跌10元,报2190元/瓶。 -
趋势领涨今天 03:50:20
美的集团(sz000333):拟50亿元-100亿元回购股份 其中70%及以上回购股份将用于注销美的集团(sz000333)公告称,拟50亿元-100亿元回购股份,资金来源为自有资金及/或股票回购专项贷款。回购价格不超过100元/股,回购股份将用于注销以减少注册资本及实施股权激励计划及/或员工持股计划,其中70%及以上回购股份将用于注销并减少注册资本。 -
趋势领涨今天 00:57:40
三、中航产融(sh600705):拟以股东大会决议方式主动撤回A股股票上市交易中航产融(sh600705)公告称,公司收到控股股东中航工业的函件,公司拟以股东大会决议方式主动撤回A股股票在上海证券交易所的上市交易。公司股票于2025年3月31日开市起复牌。前有玉龙股份(sh601028),现在有中航产融(sh600705)主动退市,并且给出现金选择权,这些都是良心公司,至少不忽悠现在持股的散户,至于当初怎么上市的,或者有没有造假,那就是后话了,所以,现有的公司如果增加一条主动退市,不给处罚,对净化市场环境不一定是坏事。四、美股大跌,中概股回调美股低开低走,三大指数均大幅收跌,纳指跌2.7%,本周累跌2.59%;标普500指数跌1.97%,本周累跌1.53%;道指跌1.69%,本周累跌0.96%。彭博科技七巨头指数收跌3.5%。大型科技股普跌,奈飞、谷歌、亚马逊、Meta跌超4%,特斯拉、微软、英特尔跌超3%,苹果跌逾2%,英伟达跌超1%。美股大跌的主要原因,一是老美挑战全世界,二是美国2月核心PCE物价指数环比增0.4%、同比增2.8%,均超预期。中概股也下跌超过3%,但中概股复制的是白天港股的走势,富时A50出现了小幅回调,说明市场还有抛压,下周开盘大盘要回踩60日线附近,随后有望启动上行,大家安心过周末吧,至少下周利空出尽。 -
趋势领涨今天 00:57:36
二是2015至2019年期间,东旭集团虚增收入累计478.25亿元,虚增利润累计130.01亿元,虚增货币资金447.9亿元(最高);东旭光电虚增收入累计167.6亿元,虚增利润累计56.27亿元。三是东旭集团及相关主体非经营性占用东旭光电、东旭蓝天货币资金,截至目前披露的尚未归还金额合计169.59亿元。河北、深圳证监局拟对李兆廷等43名责任主体合计罚款17亿元,19名主要责任人员采取五年以上直至终身证券市场禁入措施。东旭光电已经退市,证监会对东旭光电和母公司东旭集团开出罚单,意义重大,意味着对财务造假、市场操纵等上市公司,绝不允许一退了之,该罚就罚,该抓就抓,对相关公司都有一定的震慑作用,重点是罚的钱能赔给散户吗?散户能索赔吗? -
趋势领涨今天 00:57:31
昨天又是大家打酱油的一天,大盘量能继续大幅萎缩,两市只有927只个股红盘,超过4200只个股等待红盘,很多个股几分钟没有一笔交易,有交易的都是量化在收割,盘中急速拉升,随后快速回落,然后再也没有高点,这就是量化的手段,所以,如果你不能在拉升中撤离,最终只有坐电梯。不过,有个好现象就是大盘还没有完全破位,下面60日线还有较强的支撑,只要大盘不跌破60日线,就谈不上本轮行情结束,所以,让子D先飞一会吧,或许黎明就在眼前!另外,所有的靴子下周都将落地,市场或许迎来拨云见日,都担心的利空不一定是利空,所以,大家还是再忍忍吧!一、证监会:禁止参与IPO战略配售的投资者在承诺的限售期内出借股份证监会发布证券发行管理办法,一是禁止参与IPO战略配售的投资者在承诺的限售期内出借股份;二是增加银行理财产品、保险资产管理产品作为IPO优先配售对象。这是晚间实实在在的利好,限售股在限售期内出借出去砸盘,这本身就不叫限售,现在禁止出借,对市场当然是利好,至少减少了抛压。不过,真正的做空工具还有量化和期指交割,如果再把量化规范限制一下,把期指交割延长一点,我们相信A股一定能走出牛市!二、证监会拟对东旭集团证券违法行为行政处罚:对43名责任主体合计罚款17亿元经查,一是2017年东旭光电不符合股票发行条件,以欺骗手段骗取发行核准,违法募集资金75.65亿元;2018年东旭集团不符合公司债券发行条件,以欺骗手段骗取发行核准,违法募集资金35亿元。 -
趋势领涨2025-03-28 10:26:55
阿尔特(sz300825)(300825.SZ)公告称,公司与日产(中国)投资有限公司签署了《业务主协议》,双方将以汽车产品相关车型的开发为目标,在整车开发委托、汽车零部件和系统的开发等领域积极开展项目合作。该协议为合作框架性文件,具体业务合作将以另行协商签署的协议为准。协议有效期为6年。公司是行业领先的提供独立整车研发及系统解决方案的前瞻技术驱动型企业,能够为客户提供全流程、全领域、全栈式、短周期的“交钥匙”服务。日产汽车在中国市场深耕多年,开发了多款经典畅销车型。本次协议签署有利于公司业务拓展和稳健经营,提高公司在国际客户群体中影响力和全球范围内的品牌知名度。 -
数字江恩2025-03-28 09:18:43
2-c是否跌破3340不能保证,只能当下确认。下周几个需要确认的事情是:首先,如果跌破3297,则代表结构判断错误,反之,不跌破都将完成第2浪回踩,然后开始第3浪上涨。其次,下周一二内突破3406代表向上扩展,直接确认第3浪开始,这是小概率事件;正常来说,下周一二震荡,则下周二之后,站上图上的蓝色轮峰线,即确认第三浪开始。判断条件都给出了,下周大家可以结合条件,自己当下判断第2浪下跌结束、第3浪上涨开始。 -
数字江恩2025-03-28 09:18:38
5分钟图来看3297上涨的内部次级别结构。其中第1浪上涨内不是abc三段式结构,第2浪回踩也同样是abc三段式结构。其中2-c的主要跌幅已经在本周五完成。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-28 09:18:25
首先看15分钟图,这是大盘去年12月3494以来的总体结构。对3140的反弹结构,提前预测了abc+X+12345的内部形态。这里我们已经看到3297开始新的1浪上涨结束,而上周高点3439开始的第2浪回踩将在下周确认结束,这是下周最重要的事情。【更多独家重磅股市观点请点击】