當全球科技圈還在討論GPT-5的突破時,中國AI企業DeepSeek在官宣V3.1模型的留言區埋下了一顆重磅炸彈——"UE8M0FP8是針對即將發布的下一代國產芯片設計"。
那國產芯片實現FP8的核心挑戰有哪些呢?首先是如何在ALU、Tensor Core等計算單元中高效支持兩種格式的混合運算。其次是編譯器、算子庫、驅動等如何無縫地將AI框架的指令映射到FP8硬件上;設計先進的量化工具鏈,確保模型從高精度到FP8轉換時的精度損失最小。最后是與現有生態的兼容:支持FP16/BF16等格式的平滑遷移和混合精度計算。
03國產AI芯片的FP8機遇:突圍與超越
FP8是相對較新的標準,國內外差距小于在CUDA生態上的差距,是難得的機遇窗口。
若以NVIDIA B100的FP8算力(14 petaFLOPS)為基準,在同等制程條件下,DeepSeark架構憑借算法與硬件的協同優化,預計可實現20%–30%的有效算力提升。需要說明的是,該推測目前仍基于已公開技術文檔,實際性能需以流片測試為準。
在生態建設方面,華為昇騰910B目前主要支持FP16和BF16格式,在FP8支持方面尚落后至少一代。DeepSeek所采用的“模型即芯片”策略,本質上借鑒了谷歌TPU的成功經驗,但仍需應對諸如PyTorch量化工具鏈適配等實際工程挑戰。
從供應鏈安全角度考慮,FP8格式對計算精度要求相對較低,一定程度上降低了對晶體管密度的依賴,這一特點反而成為在國產制程條件下的一項差異化優勢。
以華為昇騰系列NPU為例,針對FP8設計的專用指令集使其在典型ResNet模型上的吞吐量提升40%,同時單位算力的能耗降低至原來的1/3。這種突破性進展源于兩大創新:一是硬件層面的亞穩態電路設計優化,解決了低比特下梯度消失的問題;二是軟件框架對混合精度訓練的支持,允許不同網絡層靈活切換FP8與其他格式。值得關注的是,寒武紀思元590等國產芯片已率先集成FP8加速模塊,標志著自主架構開始引領精度革新潮流。
DeepSeek的戰略布局揭示了一個關鍵邏輯:當英偉達A100/***因出口管制而缺貨時,國產芯片廠商與下游用戶的深度綁定正在形成獨特競爭優勢。壁仞科技BR104、沐曦MXC500等新品均將FP8作為核心賣點,配合自研的編譯器工具鏈,可實現從模型轉換到部署落地的全流程無縫銜接。
當前,盡管IEEE P754等國際標準組織仍在積極推進FP8的規范化進程,但產業應用已明顯走在了標準制定的前面。以百度飛槳、智譜AI為代表的AI平臺已率先實現對FP8格式的默認支持,而在PyTorch等開源生態中,類似AutoFP8的自動化混合精度庫也在不斷涌現。這種以實際應用驅動、自下而上的技術擴散,為中國企業在AI基礎軟硬件領域爭取全球話語權打開了關鍵窗口期。如果能在未來一年半內實現三大關鍵突破——包括主流框架深度集成FP8、高質量開源模型示范驗證,以及國產硬件適配率突破50%——中國完全有能力主導一場以FP8為共識的生態變革。
然而,FP8的全面推廣仍面臨諸多現實阻力。部分業界觀點對其在復雜數據分布下的穩定性存疑,不同平臺間算子兼容性問題也尚未徹底解決。面對這些挑戰,一些企業如摩爾線程提出了“漸進式升級”的思路,通過容器化技術保障原有模型的兼容性,并引入動態剖分機制實現推理過程中不同精度策略的智能選擇。這類漸進式路徑不僅緩解了遷移成本高、風險大的核心痛點,也為FP8從試驗階段走向規模化落地贏得了更廣泛的支持與時間窗口。
DeepSeek此次技術路線的價值,在于證明了算法-硬件協同創新可能比單純追逐制程進步更具可行性,這或許只是中國AI算力自主化的第一步。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。