科技媒體 marktechpost 昨日(6 月 4 日)發布博文,報道稱英偉達推出 ProRL 強化學習方法,并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。
強化學習(Reinforcement Learning,RL)在訓練中扮演非常重要的角色,DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學習(RLVR)方法,推廣了 GRPO、Mirror Descent 和 RLOO 等算法。
然而,研究者仍在爭論強化學習是否真正提升大型語言模型(LLM)的推理能力,F有數據表明,RLVR 在 pass@k 指標上未能顯著優于基礎模型,顯示推理能力擴展受限。
此外,當前研究多集中于數學等特定領域,模型常被過度訓練,限制了探索潛力;同時,訓練步數通常僅數百步,未能讓模型充分發展新能力。
ProRL 方法的突破與應用
英偉達研究團隊為解決上述問題,推出 ProRL 方法,延長強化學習訓練時間至超過 2000 步,并將訓練數據擴展至數學、編程、STEM、邏輯謎題和指令遵循等多個領域,涵蓋 13.6 萬個樣本。
他們采用 verl 框架和改進的 GRPO 方法,開發出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。
這是全球最佳的 1.5B 參數推理模型,在多項基準測試中超越基礎模型 DeepSeek-R1-1.5B,甚至優于更大的 DeepSeek-R1-7B。
測試結果顯示,該模型在數學領域平均提升 15.7%,編程任務 pass@1 準確率提升 14.4%,STEM 推理和指令遵循分別提升 25.9% 和 22.0%,邏輯謎題獎勵值提升 54.8%,展現出強大的泛化能力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。