來源:內容編譯自theregister。
如果您認為人工智能網絡還不夠復雜,那么 Nvidia、AMD 和英特爾等公司推出的機架式架構將帶來新的復雜性。
與通常使用以太網或 InfiniBand 的橫向擴展網絡相比,這些系統核心的縱向擴展結構通常采用專有的或至少是新興的互連技術,可為每個加速器提供幾個數量級的更高帶寬。
例如,Nvidia 的第五代 NVLink 互連為每個加速器提供比當今以太網或 InfiniBand 高 9 倍到 18 倍的總帶寬。
這種帶寬意味著 GPU 的計算和內存可以池化,即使它們物理上分布在多個不同的服務器上。Nvidia 首席執行官黃仁勛將 GB200 NVL72 稱為“一塊巨型 GPU”,這可不是開玩笑。
向這些機架規模架構的轉變在很大程度上受到 OpenAI 和 Meta 等模型構建者的需求的推動,它們主要針對超大規模云提供商、CoreWeave 或 Lambda 等新云運營商以及需要將其 AI 工作負載保留在本地的大型企業。
考慮到這個目標市場,這些機器的價格不菲。據The Next Platform 估計,單個 NVL72 機架的成本為 350 萬美元。
需要明確的是,實現這些機架級架構的縱向擴展架構并非新鮮事物。只是到目前為止,它們很少擴展到單個節點之外,并且通常最多支持 8 個 GPU。例如,以下是 AMD 最新發布的MI350 系列系統中的縱向擴展架構。

如您所見,每個芯片都以全對全拓撲結構連接其他七個芯片。
Nvidia 的 HGX 設計沿用了其四 GPU *** 系統的基本模板,但為其更常見的八個 GPU 節點增加了四個 NVLink 交換機。雖然 Nvidia表示這些交換機的好處是可以縮短通信時間,但也增加了復雜性。

隨著向機架規模的轉變,同樣的基本拓撲結構只是簡單地擴大了規模——至少對于 Nvidia 的 NVL 系統而言是如此。對于 AMD 來說,全網狀網絡根本不夠用,交換機變得不可避免。
01
深入探究 Nvidia 的 NVL72 擴展架構
我們稍后會深入探討 House of Zen 即將推出的 Helios 機架,但首先我們先來看看 Nvidia 的 NVL72。由于它上市時間較短,我們對它了解得比較多。
簡單回顧一下,該機架式系統擁有72 個 Blackwell GPU,分布在 18 個計算節點上。所有這些 GPU 都通過 18 個 7.2TB/s 的 NVLink 5 交換芯片連接,這些芯片成對部署在 9 個刀片服務器上。
據我們了解,每個交換機ASIC都擁有72個端口,每個端口的雙向帶寬為800Gbps或100GB/s。與此同時,Nvidia的Blackwell GPU擁有1.8TB/s的總帶寬,分布在18個端口上——機架上的每個交換機一個端口。最終的拓撲結構看起來有點像這樣:

這種高速全互連結構意味著機架中的任何 GPU 都可以訪問另一個 GPU 的內存。
02
為什么要擴大規模?
據 Nvidia 稱,這些海量計算域可顯著提升 GPU 的運行效率。對于 AI 訓練工作負載,這家 GPU 巨頭估計其 GB200 NVL72 系統的速度比同等數量的 *** 系統快 4 倍,盡管在相同精度下,組件芯片的性能僅高出 2.5 倍。
同時,對于推理,Nvidia表示其機架規模配置的速度提高了 30 倍——部分原因是可以采用不同程度的數據、管道、張量和專家并行性來利用所有內存帶寬,即使模型不一定受益于所有內存容量或計算。
話雖如此,Nvidia 基于 Grace-Blackwell 的機架中 VRAM 為 13.5TB 到 20TB,AMD 即將推出的 Helios 機架中 VRAM 為 30TB 左右,這些系統顯然是為服務于像 Meta(顯然已延遲)兩萬億參數的 Llama 4 Behemoth 這樣的超大模型而設計的,它將需要 4TB 內存才能在 BF16 上運行。
不僅模型越來越大,上下文窗口(可以將其視為 LLM 的短期記憶)也越來越大。例如,Meta 的 Llama 4 Scout 擁有 1090 億個參數,并不算特別大——在 BF16 級別上運行時僅需要 218GB 的 GPU 內存。然而,其 1000 萬個 token 的上下文窗口則需要數倍于此的內存,尤其是在批量大小較大的情況下。
03
推測 AMD 首 款擴展系統 Helios
毫無疑問,這就是為什么 AMD 也在其 MI400 系列加速器中采用了機架式架構。
在本月初的 Advancing AI 大會上,AMD發布了Helios 參考設計。簡而言之,該系統與 Nvidia 的 NVL72 非常相似,將于明年上市,配備 72 個 MI400 系列加速器、18 個 EPYC Venice CPU 以及 AMD 的 Pensando Vulcano NIC。
關于該系統的細節仍然很少,但我們知道它的擴展結構將提供 260TB/s 的總帶寬,并將通過以太網傳輸新興的 UALink。
如果您還不熟悉,新興的 Ultra Accelerator Link 標準是 NVLink 的開放替代方案,適用于擴展網絡。Ultra Accelerator Link 聯盟最近于 4 月發布了其首 個規范。
Helios 每塊 GPU 的雙向帶寬約為 3.6TB/s,這將使其與 Nvidia 第 一代 Vera-Rubin 機架式系統(也將于明年推出)相媲美。至于 AMD 打算如何實現這一目標,我們只能猜測——我們也這么做了。

根據我們在 AMD 主題演講中看到的內容,該系統機架似乎配備了五個交換刀片,每個刀片上似乎有兩塊 ASIC。由于每個機架配備了 72 塊 GPU,這種配置讓我們感覺有些奇怪。
最簡單的解釋是,盡管有 5 個交換刀片,但實際上只有 9 個交換 ASIC。要實現這一點,每個交換芯片需要 144 個 800Gbps 端口。這對于以太網來說略顯不尋常,但與 Nvidia 在其 NVLink 5 交換機上的做法相差無幾,盡管 Nvidia 使用的 ASIC 數量是 NVLink 5 的兩倍,帶寬卻只有 NVLink 5 的一半。
其結果將是與 Nvidia 的 NVL72 非常相似的拓撲結構。

棘手的是,至少據我們所知,目前還沒有能夠提供這種帶寬水平的交換機ASIC。幾周前我們深入研究過的博通Tomahawk 6,其性能最接近,擁有多達128個800Gbps端口和102.4Tbps的總帶寬。
需要說明的是,我們不知道 AMD 是否在 Helios 中使用了 Broadcom——它恰好是少數幾個公開披露的非 Nvidia 102.4Tbps 交換機之一。
但即使 Helios 塞進了 10 顆這樣的芯片,你仍然需要另外 16 個 800Gbps 以太網端口才能達到 AMD 宣稱的 260TB/s 帶寬。這到底是怎么回事呢?
我們猜測 Helios 使用的拓撲結構與 Nvidia 的 NVL72 不同。在 Nvidia 的機架式架構中,GPU 通過 NVLink 交換機相互連接。
然而,看起來 AMD 的 Helios 計算刀片將保留 MI300 系列的芯片到芯片網格,盡管有三個網格鏈接將每個 GPU 連接到其他三個。

當然,這都只是猜測,但數字確實相當吻合。
根據我們的估算,每個 GPU 為節點內網格分配 600GB/s(12 條 200Gbps 鏈路)的雙向帶寬,并為擴展網絡分配約 3TB/s(60 條 200Gbps 鏈路)的帶寬。也就是說,每個交換刀片的帶寬約為 600GB/s。

如果您覺得端口數量太多,我們預計每個計算刀片將聚合成大約 60 個 800Gbps 端口,甚至可能 30 個 1.6Tbps 端口。這有點類似于英特爾對其Gaudi3 系統的做法。據我們了解,實際布線將集成到盲插式背板中,就像 Nvidia 的 NVL72 系統一樣。所以,如果您之前還在為手動連接機架網絡而煩惱,現在您可以放心了。
我們可以看到這種方法的一些好處。如果我們的預測正確,那么每個 Helios 計算刀片都可以獨立運行。與此同時,Nvidia 有一個單獨的 SKU,名為 GB200 NVL4,專門針對 HPC 應用,它將四個 Blackwell GPU 連接在一起,類似于上圖,但不支持使用 NVLink 進行擴展。
但同樣,我們無法保證這就是 AMD 正在做的事情——這只是我們最 好的猜測。
04
擴大規模并不意味著停止擴大規模
您可能會認為,AMD 和 Nvidia 的機架式架構所支持的更大的計算域意味著以太網、InfiniBand 或 OmniPath — — 是的,它們回來了! — — 將退居次要地位。
實際上,這些可擴展網絡無法擴展到機架之外。Nvidia 的 NVL72 和 AMD 的 Helios 等系統中使用的銅質跨接電纜根本無法達到那么遠。
正如我們之前所探討的,硅光子技術有潛力改變這一現狀,但該技術在集成方面也面臨著自身的障礙。我們認為,Nvidia 并非出于自身意愿而規劃 600kW 機架的發展路線,而是因為它預計這些規模化網絡擺脫機架束縛所需的光子技術將無法及時成熟。
因此,如果您需要超過 72 個 GPU(如果您正在進行任何類型的訓練,那肯定需要),您仍然需要一個橫向擴展架構。實際上,您需要兩個。一個用于協調后端的計算,另一個用于前端的數據提取。
機架規模似乎也沒有減少所需的橫向擴展帶寬。至少對于其 NVL72,Nvidia 本代產品仍堅持 1:1 的 NIC 與 GPU 比例。通常,每個刀片還會配備另外兩個 NIC 或數據處理單元 (DPU) 端口,用于傳統的前端網絡將數據移入和移出存儲等等。
這對于訓練來說很有意義,但如果你的工作負載可以容納在單個 72 GPU 的計算和內存域中,那么對于推理來說可能并非絕 對必要。劇透:除非你運行的是某個龐大的專有模型,且其細節尚不清楚,否則你很可能可以做到。
好消息是,我們將在未來 6 到 12 個月內看到一些高基數開關(high radix switches)進入市場。
我們已經提到過博通的Tomahawk 6,它將支持從64個1.6Tbps端口到1024個100Gbps端口的各種帶寬。此外,英偉達的Spectrum-X SN6810也將于明年上市,它將提供多達128個800Gbps端口,并將采用硅光技術。與此同時,英偉達的SN6800將配備512個MPO端口,每個端口速率可達800Gbps。
這些交換機大幅減少了大規模 AI 部署所需的交換機數量。要以 400Gbps 的速度連接 128,000 個 GPU 集群,大約需要 10,000 臺 Quantum-2 InfiniBand 交換機。而選擇 51.2Tbps 以太網交換機,則可以有效地將這一數字減半。
隨著轉向 102.4Tbps 交換,這個數字縮減到 2,500,如果您可以使用 200Gbps 端口,則只需要 750 個,因為基數足夠大,您可以使用兩層網絡,而不是我們在大型 AI 訓練集群中經?吹降娜龑优謽渫負。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。