回到 2024 年臺北國際電腦展,AMD 首席執行官蘇姿豐博士在開幕主題演講中發布了備受期待的 Zen 5 CPU 微架構。AMD 宣布了兩個將采用最新 Zen 5 核心的新客戶端平臺,而不是一個。其中包括 AMD 最新的面向筆記本電腦市場的 AI PC 芯片系列 Ryzen AI 300 系列。相比之下,Ryzen 9000 系列面向使用現有 AM5 平臺的臺式機市場。
Ryzen AI 300 系列以全新的 Zen 5 CPU 微架構為基礎,在圖形和 AI 性能方面都有了一些根本性的改進,代號為 Strix Point,將在多個領域實現改進。Ryzen AI 300 系列似乎將在邁向 AI PC 的道路上再添一筆,其移動 SoC 配備了全新的 XDNA 2 NPU,AMD 承諾其性能將達到 50 TOPS。AMD 還用 RDNA 3.5 升級了集成顯卡,旨在取代上一代 RDNA 3 移動顯卡,從而在游戲中實現比我們之前見過的更好的性能。
在上周 AMD 的技術日上,AMD 披露了有關 Zen 5 的一些技術細節,其中還涵蓋了 Ryzen AI 300 和 Ryzen 9000 系列的一些關鍵元素。從紙面上看,Zen 5 架構與 Zen 4 相比有了很大的進步,關鍵組件通過比其前代產品更高的每周期指令數推動 Zen 5 向前發展,這是 AMD 從 Zen 到 Zen 2、Zen 3、Zen 4 以及現在的 Zen 5 一直努力做到的事情。
AMD Zen 5 微架構:IPC 比 Zen 4 提高 16%
移動版 AMD Ryzen AI 300 系列和臺式機版 Ryzen 9000 系列均采用 AMD 最新的 Zen 5 架構,在性能和效率方面帶來諸多改進。其移動產品線中最大的改進或許是集成了 XDNA 2 NPU,旨在利用 Microsoft Copilot+ AI 軟件。這些新的移動處理器通過 NPU 可提供高達 50 TOPS 的 AI 性能,使其成為 AMD 移動芯片產品線的重大升級。
Zen 5 微架構的主要功能包括雙管道提取,它與 AMD 所謂的高級分支預測相結合。這旨在減少延遲并提高準確性和吞吐量。增強的指令緩存延遲和帶寬優化進一步促進了數據流和數據處理速度,而不會犧牲準確性。
Zen 5 整數執行能力比 Zen 4 有所升級,Zen 5 具有 8 寬調度/退出系統。Zen 5 內部改進的一部分包括六個算術邏輯單元 (ALU) 和三個乘法器,它們通過 ALU 調度程序進行控制,AMD 聲稱 Zen 5 使用了更大的執行窗口。理論上,這些改進在更復雜的計算工作負載下應該會更好。
Zen 5 的其他主要增強功能包括比 Zen 4 更高的數據帶寬,配備 48 KB 12 路 L1 數據緩存,可滿足 4 周期負載。AMD 將 L1 緩存的最大可用帶寬增加了一倍,浮點單元也比 Zen 4 增加了一倍。AMD 還聲稱改進了數據預取器,確保更快、更可靠的數據訪問和處理。
Zen 5 還引入了完整的 512 位 AI 數據路徑,它使用具有完整 512 位數據路徑的 AVX-512 和具有兩周期延遲 FADD 的六個管道。盡管 Zen 4 可以支持 AVX-512 指令,但它使用兩個相互協同工作的 256 位數據路徑,術語“雙泵”是其最廣泛使用的術語。Zen 5 現在具有完整的 AVX-512 數據路徑,這是一個受歡迎的改進。
看看 AMD 宣稱的 Zen 5 的 IPC 提升,AMD 聲稱與 Zen 4 相比平均提升了 16%。當然,AMD 提供了內部數據,這些數據顯示了各種基準測試的全面改進。其中包括《孤島驚魂 6》的 10% 提升,《速度計》的 15% 提升,《英雄聯盟》的 21% 提升更大。AMD 最大的宣稱是 Geekbench 5.4 AES-XTS 的大幅提升了 35%。這是一個令人印象深刻的性能提升,盡管 Geekbench 5 AES XTS 測試使用了 VAES+ 和 AVX10/512,這對于像 Zen 5 一樣支持這些指令的處理器來說可能是有利的。
正如我們在 Zen 微架構的先前版本中看到的那樣,AMD 正在將 Zen 5 應用于整個產品系列。全功能 Zen 5 內核采用臺積電的 4nm制造,而更緊湊、更節能的 Zen 5c 內核則采用臺積電的 3nm 工藝技術制造。AMD 即將推出的第五代 EPYC CPU(代號為“Turin”)預計將于 2024 年下半年推出,它將利用多達 192 個 Zen 5 內核。AMD 此前在 2022 年 6 月的財務分析師日上宣布,第五代 EPYC 將于 2024 年推出。
XDNA 2 NPU ,最高可達 50 TOPS
對于用于筆記本電腦的 AMD Ryzen AI 300 系列,與上一代 Ryzen 8040 系列 (Hawk Point) 相比,第二大進步是神經處理單元 (NPU)。AMD于 2020 年收購 Xilinx,通過整合 Xilinx 現有技術啟動了 NPU 開發,從而形成了 AMD 最初的 XDNA 架構。憑借其最新版本的架構 XDNA 2,AMD 進一步擴展了其功能和性能。它還引入了對塊浮點 16 位算術方法的支持,而不是傳統的半精度 (FP16),AMD 聲稱它結合了 8 位的性能和 16 位的精度。
看看 AMD XDNA 架構與多核處理器的典型設計有何不同,XDNA 設計必須將靈活的計算與自適應內存層次結構結合起來。與固定計算模型或基于靜態內存層次結構的模型相比,XDNA(Ryzen AI)引擎使用互連的 AI 引擎 (AIE) 網格。每個引擎都經過精心設計,能夠動態適應手頭的任務,包括計算和內存資源,旨在提高可擴展性和效率。
進一步談及 AIE 的平鋪方法,AMD 稱之為空間架構。它設計靈活,同時將平鋪數據流結構與可編程互連和靈活分區結合在一起。平鋪數據流結構可實現確定性性能,不會出現任何緩存未命中,還可增強內存管理?删幊袒ミB大大降低了對內存帶寬的需求,從而使其能夠高效地分配資源。所采用的靈活分區設計可實現實時性能,同時能夠滿足不同的要求,從各種 AI 推理任務(包括實時視頻和音頻處理)到內容創建工作流程。
XDNA 2 架構以現有的 XDNA 架構為基礎,并添加了更多 AI 引擎以提高吞吐量。Strix Point 中的 AMD XDNA 2 實現有 32 個 AI 引擎塊,比上一代多 12 個。XDNA 2 架構不僅提供了更多的 AI 引擎塊,而且每個塊的 MAC 數量是上一代的兩倍,片上內存是上一代的 1.6 倍。
總而言之,AMD 聲稱其 NPU 性能達到 50 TOPS,這比英特爾和高通目前的產品要高。關于使用 TOPS 來衡量 AI 性能的相關性的爭論存在分歧,而微軟通過將 Copilot+ 的標準設定為 40 TOPS 而率先提出了這一要求。
XDNA 2 架構不僅試圖在 TOPS 上超越競爭對手,而且在設計時還考慮到了能效。AMD 聲稱,與 Ryzen 7040 系列中使用的 NPU 相比,其 XDNA 2 NPU 的計算能力提高了 5 倍,能效提高了一倍。這是通過各種設計選擇實現的,包括基于列的電源門控,AMD 表示它可以顯著延長電池壽命,并且在多任務處理時能夠同時處理多達八個并發空間流。

XDNA 2 架構的主要功能之一是支持塊浮點 (Block FP16)。簡單來說,它提供了 8 位運算的性能和速度,但采用了額外的技巧,試圖使精度更接近 16 位運算。值得注意的是,這也是在沒有進一步量化或減少正在處理的數據大小的情況下實現的。
與其他神經網絡精度優化一樣,Block FP16 的目的是減少所需的計算工作量;在這種情況下,使用 8 位數學,而不會產生從 16 位數學降級的全部缺點——即降低精度導致結果較差。當前一代 NPU 已經可以進行原生 8 位處理(以及 16 位處理),但這要求開發人員要么優化(和量化)他們的軟件以進行 8 位處理,要么承受停留在 16 位的速度損失。人工智能仍然是一個相對年輕的領域,因此軟件開發人員仍在努力弄清楚多少精度才足夠(這條線似乎像邊緣欄一樣不斷下降),但基本思想是,這試圖讓軟件開發人員魚與熊掌兼得。
盡管如此,從技術角度來看,Block FP16(又名Microscaling)本身并不是一項新技術。但 AMD 將成為第一家支持該技術的 PC NPU 供應商,英特爾即將推出的 Lunar Lake 也將加入他們的行列。因此,雖然這是 AMD 的一項新功能,但它不會是一項獨特的功能。
至于 Block FP16 的工作原理,AMD 自己關于該主題的材料相對較高,但我們從其他來源得知,它本質上是一種帶有附加指數的定點 8 位計算形式。具體來說,Block FP16 對所有值使用共享指數,而不是每個浮點值都有自己的指數。例如,FP16 數字不是具有符號位、5 位指數和 10 位有效位,而是具有與所有數字共享的 8 位指數,然后是 8 位有效位。
這實際上允許處理器通過將唯一有效數字處理為 INT8(或定點 8 位)數字來作弊,同時跳過共享指數的所有工作。這就是為什么 Block FP16 性能與 INT8 性能大致相同:它基本上是 8 位數學。但是通過共享指數,軟件作者可以將計算的整個數字范圍窗口移動到特定范圍,該范圍通常超出了真正的 FP8 數字的微不足道的指數所提供的范圍。
大多數 AI 應用都需要 16 位精度,而 Block FP16 滿足了這一要求,至少從 AI 的角度來看,它同時為移動市場帶來了高性能和高精度。這使得 Block FP16 成為推動 AI 技術發展的重要組件,而這也是 AMD 正在努力推進的事情。
歸根結底,Ryzen AI 300 系列移動芯片中基于 XDNA 2 的 NPU 實際上是用來處理 AI 工作負載并以比使用圖形更節能的方式運行 Microsoft Copilot+ 等功能。并且,通過能夠提供 8 位性能和 16 位精度,這為開發人員提供了另一個杠桿,以充分利用硬件。
AMD XDNA 2 架構將與 Ryzen AI 300 系列一起首次亮相,它將提供解鎖 AI PC 的關鍵,或者至少是微軟對 Copilot+ 的 40 TOPS 要求所定義的。通過將 Block FP16 引入方程式,AMD 以 8 位速度實現了(接近)16 位精度,使其在某些 AI 應用程序上具有更高的性能。總而言之,集成的 NPU 預計將提供高達 50 TOPS 的計算性能。
AMD 是第一家在芯片中集成 NPU 的 x86 SoC 供應商,隨著對片上 AI 解決方案的需求不斷增長以解鎖許多軟件功能,他們希望硬件(及其代表的芯片空間)能夠得到充分利用。XDNA 2 架構確保 AMD 保持領先地位,為移動市場提供穩定的性能和綜合的多功能性。
RDNA 3.5 顯卡帶來視覺效果
為 Ryzen AI 300 移動系列芯片帶來的另一項新技術是升級的集成顯卡。AMD 的 RDNA 3.5 圖形架構代表著下一代 AMD 圖形架構的墊腳石(沒有 .5)。最新版本的設計旨在提高性能和效率,重點是優化每瓦性能的每一滴。值得注意的是,AMD 尚未提供有關 RDNA 3.5 的太多細節,因此我們將深入研究其主要功能和進步。

AMD RDNA 3.5 圖形架構代表了其 Ryzen AI 300 移動 SoC 集成顯卡的下一步,與 RDNA 3 相比有一些顯著的升級。AMD 一直與 ISV 和開發商密切合作,以確保 RDNA 3.5 提供 AMD 表示將與移動合作伙伴攜手合作以提高游戲每瓦性能的所有內容。一些改進包括常規圖形著色器操作,這些操作經過優化以確保一切正常運行。AMD 非常注重每位性能,這不僅減少了內存訪問時間,還使操作更流暢。改進的總體重點是功率與性能,AMD 的目標是中間地帶以確保更長的電池壽命,這對于移動和便攜式設備至關重要。

與 RDNA 3 相比,許多改進都來自針對移動平臺特別優化的多項功能。這確保了 Radeon 890M(Ryzen AI 300 系列的型號)在效率和視覺性能方面兼具兩者的優勢。紋理采樣率翻倍,確保 GPU 具有雙倍速率性能。從表面上看,這意味著在游戲過程中紋理和圖形的細節和清晰度得到增強。從理論上講,這應該有助于改善細節紋理,使其在玩高分辨率游戲時看起來很棒。此外,RDNA 3.5 的插值和比較率是 2 倍,因為矢量 ISA 操作可以更好地呈現高質量圖形的細節。
另一個關鍵改進是更好的內存管理技術。這些技術降低了內存訪問頻率,這意味著數據處理在理論上應該更快,總體上更節能。優化的 LPDDR5 訪問還應保證快速高效的內存使用,從而有助于延長電池壽命。

AMD 提供了一些 RDNA 3.5 與 RDNA 3 的性能數據,如果將其轉化為實際性能,這些數據將非常令人印象深刻。從紙面上看,RDNA 3.5 架構與上一代 Ryzen 8040 系列相比,性能顯著提升,每瓦性能提升高達 32%。在 3DMark Timespy 和 3DMark Night Raid 等圖形工作負載中,AMD 聲稱 RDNA 3.5 在 15 W 下的性能提升了 19% 至 32%。
由于這些改進,RDNA 3.5 與其前身 RDNA 3 相比在各個方面都有所改進。例如,RDNA 3.5 通過優化紋理采樣和插值等關鍵內容,大大提高了 GPU 更有效地執行復雜圖形操作的能力。改進 RDNA 3.5 中的內存管理還可以實現更好的功率優化和數據處理,以解決主要的 GPU 性能問題。所有這些都應該帶來實際的性能優勢。然而,與任何移動 SoC 一樣,這些仍然沒有達到獨立顯卡的水平,獨立顯卡通常具有更大的芯片面積、更高的制造級晶體管預算,當然還有更高的功率。
【來源:半導體行業觀察】
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。