三大核心技術,直指智能體痛點
為了支撐上述能力,Nemotron 3引入了三項緊密耦合的核心技術創新:
1.Mamba-Transformer MoE架構
該架構的創新之處在于將三種核心技術進行了深度融合:高效處理長序列的Mamba層、確保精密推理的Transformer層,以及實現可擴展計算效率的MoE(專家混合)路由機制。它們共同構成了一個高效協同的運算整體。

圖:Nemotron 3采用混合架構,從而在最大化推理吞吐量的同時,依然保持了頂尖的準確性
Mamba層的核心優勢在于能以極低的內存開銷追蹤長距離的依賴關系,即使面對數十萬乃至上百萬Token的超長序列,其性能依然穩定。這為處理長篇文檔、復雜代碼或持續對話提供了基礎。
Transformer層則通過其精細的注意力機制,專門負責捕捉任務中深層的結構與邏輯。無論是代碼的語法關聯、數學公式的推導步驟,還是多步驟任務的規劃依賴,它都能進行精準建模,為模型賦予強大的推理能力。
MoE組件的作用是在控制計算成本的前提下,智能地擴展模型的能力。其原理如同一個由眾多專家組成的智庫:對于每個輸入的Token,系統只會動態調用最相關的一部分“專家”進行處理,而非動用全部資源。這種“按需調用”的模式,顯著降低了運算延遲,并大幅提升了整體吞吐效率。
正因如此,這套混合架構天然適配需要高并發處理的多智能體場景。想象一個由眾多輕量級AI助手組成的集群:它們可能同時在生成任務計劃、分析上下文信息或調用各種工具執行工作流。該架構能夠為每個并發的智能體實例提供高效、獨立的計算支持,從而確保整個系統流暢、敏捷地運轉。
2.多環境強化學習訓練
為了讓Nemotron 3的行為模式更貼近能夠解決實際問題的智能體,英偉達在發布前對其進行了關鍵一步的“實戰演練”,在名為NeMo Gym的開源強化學習平臺中進行后訓練。

圖:Nemotron 3 Nano憑借其混合專家(MoE)架構實現了最高的吞吐效率,并通過在NeMo Gym平臺上的強化學習訓練,獲得了領先的推理準確度
這個平臺提供了多種模擬現實世界的虛擬環境。在這些環境中,模型不再僅僅是回答單個問題,而是被評估其執行一連串復雜動作的序列能力。具體任務可能包括:準確調用一個應用程序接口來查詢數據、編寫一段能真正運行并解決問題的代碼,或者構思一個包含多個階段、且最終結果可被驗證的詳細計劃。
這種基于完整行為軌跡的強化學習訓練,其核心目標是讓模型“學會思考”,從而在真實的應用中表現得更穩定可靠。它能有效減少模型在長鏈條任務中可能出現的“推理漂移”(即思維逐漸偏離正軌),并提升其處理具有固定邏輯和結構化步驟的任務流程的能力。
一個經過這種訓練后變得“可靠”的模型,在實際部署時,更不容易在執行中途“卡殼”或做出前后矛盾的決策。同時,這極大地降低了將前沿大模型轉化為解決具體領域問題的“專家智能體”的門檻和成本。
3.100萬Token上下文窗口
Nemotron 3的100萬Token上下文窗口,使其能夠將完整的任務背景、歷史記錄和復雜計劃保存于單一“工作區”,實現真正意義上的長程、持續推理。這消除了因傳統文本切割導致的信息碎片和邏輯斷層。
其實現得益于核心的高效混合Mamba-Transformer架構,它能在低內存開銷下處理超長序列,而MoE(專家混合)路由機制則通過按需激活專家,將處理龐大上下文所需的實際計算量控制在可行范圍內。
對于企業級的深度文檔分析、跨會話智能體協作或整體代碼庫理解等復雜任務,這一能力能直接提升事實準確性、保障邏輯連貫性,是構建可靠、持久AI應用的關鍵基礎。
即將推出的關鍵技術
為了在更大規模的Super和Ultra版本中實現更強的性能與效率,Nemotron 3引入了三項進階的關鍵技術:
潛在MoE:用相同成本調用更多“專家”

圖:標準MoE與潛在MoE架構對比
Nemotron 3 Super 和 Ultra 采用了潛在MoE技術。在此設計中,模型的各個“專家”模塊并非直接處理原始的Token數據,而是先在一個共享的、維度更低的潛在表征空間 中進行運算,再將結果轉換回Token空間。
這種設計的精妙之處在于,它能讓模型以基本相同的推理計算成本,動態調用多達4倍的專家數量。這相當于在不增加“腦力”負擔的情況下,顯著擴充了可用的“專業智庫”,使模型能夠對更微妙的語義差異、特定領域的抽象概念,以及需要多步推導的復雜推理模式,實現更精細、更專業化的處理。
多Token預測:一次生成多個詞,提升響應速度

圖:多Token預測技術允許模型在訓練時同時預測未來多個Token,顯著提升模型的響應速度
多Token預測技術改變了模型逐詞生成的慣例,允許其在一次前向計算中,同時預測后續的多個Token。這對于需要生成長篇邏輯推理(如思維鏈)、結構化輸出(如代碼、JSON)或未來行動軌跡的任務而言,能顯著提高生成吞吐量。
其效果直觀體現為:在規劃、代碼生成或長對話等場景中,智能體的響應延遲更低,整體反應更為敏捷流暢,極大地改善了交互體驗。
NVFP4訓練格式:高精度與低成本的平衡
Super和Ultra模型的預訓練使用了英偉達自研的4位浮點格式NVFP4。該格式的核心價值是在訓練與推理的成本與模型精度之間實現了業界頂尖的平衡。
專為Nemotron 3優化的NVFP4訓練方案,確保在25萬億Token數據集上,訓練過程既能保持穩定,又能保證最終模型的準確性。在實際訓練中,絕大部分的浮點乘累加運算都在NVFP4格式下高效完成,從而在控制巨量計算開銷的同時,鍛造出高性能的模型。
開源Nemotron訓練數據集
英偉達還將發布用于模型開發全過程的開放數據集,為如何構建高性能、可信賴的模型提供了前所未有的透明度。
新發布的數據集包括:
Nemotron-預訓練集:一個新的包含3萬億Token的數據集,更廣泛地涵蓋了代碼、數學和推理內容,并通過合成增強和標注流程進行了優化。
Nemotron-后訓練集 3.0:一個包含1300萬樣本的語料庫,用于監督微調和強化學習,是Nemotron 3 Nano實現對齊和推理能力的動力來源。
Nemotron-RL數據集:一套精選的強化學習數據集和環境,用于工具使用、規劃和多步推理。
Nemotron智能體安全數據集:一個包含近1.1萬條AI智能體工作流軌跡的集合,旨在幫助研究人員評估和緩解智能體系統中新出現的安全與安保風險。
結合英偉達的NeMo Gym、RL、Data Designer和Evaluator等開源庫,這些開放數據集使開發者能夠訓練、增強和評估他們自己的Nemotron模型。
英偉達生成式AI軟件副總裁卡里·布里斯基表示,公司希望展示其從前代模型中學習與改進的承諾。“我們相信,我們具備獨特的優勢,能夠服務廣大開發者,他們希望通過結合我們新的混合專家模型架構和100萬Token的上下文長度,來獲得完全定制模型、構建專用AI的靈活性。”布里斯基說道。
英偉達表示,Nemotron 3模型的早期采用者包括埃森哲、CrowdStrike、Cursor、德勤、安永、甲骨文云基礎設施、Palantir、Perplexity、ServiceNow、西門子和Zoom等公司。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。