英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

2025年06月05日 15:17:08 來源：IT之家

　　科技媒體 marktechpost 昨日(6 月 4 日)發布博文，報道稱英偉達推出 ProRL 強化學習方法，并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

　　強化學習(Reinforcement Learning，RL)在訓練中扮演非常重要的角色，DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學習(RLVR)方法，推廣了 GRPO、Mirror Descent 和 RLOO 等算法。

　　然而，研究者仍在爭論強化學習是否真正提升大型語言模型(LLM)的推理能力�，F有數據表明，RLVR 在 pass@k 指標上未能顯著優于基礎模型，顯示推理能力擴展受限。

　　此外，當前研究多集中于數學等特定領域，模型常被過度訓練，限制了探索潛力;同時，訓練步數通常僅數百步，未能讓模型充分發展新能力。

　　ProRL 方法的突破與應用

　　英偉達研究團隊為解決上述問題，推出 ProRL 方法，延長強化學習訓練時間至超過 2000 步，并將訓練數據擴展至數學、編程、STEM、邏輯謎題和指令遵循等多個領域，涵蓋 13.6 萬個樣本。

　　他們采用 verl 框架和改進的 GRPO 方法，開發出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

　　這是全球最佳的 1.5B 參數推理模型，在多項基準測試中超越基礎模型 DeepSeek-R1-1.5B，甚至優于更大的 DeepSeek-R1-7B。

　　測試結果顯示，該模型在數學領域平均提升 15.7%，編程任務 pass@1 準確率提升 14.4%，STEM 推理和指令遵循分別提升 25.9% 和 22.0%，邏輯謎題獎勵值提升 54.8%，展現出強大的泛化能力。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

realme新機首曝，預計為真我15 Pro《權力的游戲》限定版

榮耀500系列正式發布 2699元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

擴展閱讀

最新新聞

熱門新聞

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型