月之暗面Kimi昨日發布了一份關于“Muon可擴展用于LLM訓練”的新技術報告,并正式推出基于Muon訓練的混合專家模型(MoE)“Moonlight”。該模型包含30億和160億參數兩個版本,通過5.7萬億個token的訓練數據,在更低浮點運算次數(FLOPs)下實現了更優性能,顯著提升了帕累托效率邊界。
月之暗面團隊表示,Muon優化器通過添加權重衰減、精細調整參數更新幅度等技術,能夠在大規模訓練中開箱即用,無需超參數調優。實驗表明,Muon的計算效率比AdamW高出約2倍。
此次發布的Moonlight-16B-A3B模型總參數量為15.29億,激活參數為2.24億,展示了Muon優化器在高效訓練中的潛力。團隊還開源了分布式版本的Muon實現,優化了內存使用和通信效率,并發布了預訓練模型、指令調優模型及中間訓練檢查點,為后續研究提供支持。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。