国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

最新新聞：

解鎖2026世界杯觀賽“新姿勢”，聯想AI平板攜天禧AI 3.5打造掌上沉浸主場聯想motoX70Air云上舞白冰鉆限定版AI手機即將上市自帶14顆手工精鑲冰鉆超奢華只有紅魔還在做24+1TB 姜超：成本暴增友商一臺都沒有英特爾®至強® D處理器：賦能智能網卡，破解算力-網絡協同瓶頸豐田全新超跑GR GT發布：配641馬力大V8 商家仿冒心系天下W26 老機當新機賣！中國電信回應告別“人海戰術”！陳天橋：未來公司值多少錢，不看人數看“認知”“卷”不動了？讓AI銷售團隊替你卷！百度商家智能體升級片來了卡薩帝冰箱亮相廣州設計周亞馬遜云科技推出Amazon Graviton5----迄今性能最強、能效最高的自研CPU 第八屆“綻放杯”圓滿落幕，華為助力千行百業5G應用“全面綻放”機構：2025年第三季度中國PC市場同比增長2%火山引擎發布豆包語音識別模型2.0提升多語種識別精度現代汽車推出 AI 驅動的 MobED 機器人，2026年上市 Vidu發布 Q2“生圖全家桶”:4K 生圖 + 圖像編輯 + 圖轉視頻，全都免費用中國新勢力首家！理想汽車累計交付突破150萬輛瑞典Oceanbird Wing 560翼帆開放訂購，2026量產在即，加速布局中國市場賦能綠色航運億邦智庫第七次《產業互聯網發展報告》重磅發布一加Ace 6T首銷10分鐘賣爆！打破今年同檔機型全天銷售紀錄魯大師11月電動兩輪車榜：潮玩思路重塑市場，九號領跑智能化

首頁 > 企業IT頻道 > 數字化

AI加速器與機器學習算法：協同設計與進化

2022年09月16日 12:13:00 作者｜Shashank Prasanna 翻譯｜胡燕君來源：OneFlow深度學習框架

　　此刻，你應該是在電腦或手機上看這篇文章。不管怎樣，這些機器都屬于現代計算機，它們都有中央處理器(CPU)和其他為特定功能服務的專用芯片，例如顯卡、聲卡、網卡、傳感器融合等。處理特定任務時，專用處理器往往比通用 CPU 更快更高效。

　　計算機發展早期，CPU 都會和專用處理器配合使用。1970 年代的 8 位和 16 位 CPU 需要依賴軟件來模擬浮點指令，因此執行浮點運算非常慢。而由于計算機輔助設計(CAD)和工程模擬等應用對浮點運算的速度要求較高，于是人們開始用數學協處理器(math coprocessor)輔助 CPU，讓數學協處理器分擔所有浮點運算任務，它的浮點運算速度和效率都比 CPU 更高。這就是專用處理器的一個例子。

　　關注 AI 和半導體行業的朋友近來可能聽說過 “機器學習(ML)專用處理器”(即 AI 加速器)。最常見的 AI 加速器莫過于 NVIDIA GPU，此外還有 Intel 的 Habana Gaudi 處理器、Graphcore 的 Bow IPU、Google 的 TPU、AWS 的 Trainium 和 Inferentia 芯片等。

　　為什么如今有這么多 AI 加速器可供選擇?它們和 CPU 有什么不同?算法如何改變才能適應這些硬件?硬件又該如何發展才能支持最新的算法? 本文將一一解答。本文主要內容包括：

　　為什么需要專用 AI 加速器?

　　ML 硬件的分類：CPU、GPU、AI 加速器、FPGA 和 ASIC

　　“硬件感知(Hardware-aware)” 的算法和 “算法感知(Algorithms-aware)” 的硬件

　　AI 加速器與高效 ML 算法的協同進化

　　針對推理的 AI 加速器與高效算法

　　針對訓練的 AI 加速器與高效算法

　　AI 加速器的未來

　　1

　　為什么需要專用 AI 加速器?

　　構建 ML 專用處理器有三個方面的原因：能效、性能、模型大小及復雜度。近來，要提高模型準確率，通常做法是擴大模型參數量，并用更大型的數據集訓練模型。計算機視覺、自然語言處理和推薦系統都采用這種做法。

　　語言模型方面，前幾年誕生的 GPT-3 有 1750 億參數，當時被視為大模型的 “天花板”，但后來又出現了 GLaM 和 NVIDIA MT-NLG，參數量分別達到 1.2 萬億和 5300 億。按照歷史規律，模型將越來越大，而現有處理器的算力將無法滿足大模型在訓練時間和推理延遲方面的要求。

　　不過，構建 AI 專用加速器的最重要原因還是能效，開發 AI 專用芯片可節省巨大的能源，可覆蓋研發投入有余。

　　為什么需要高能效的處理器?

　　ML 模型越大，需要執行的內存訪問操作就越多。與內存訪問相比，矩陣 - 矩陣運算和矩陣 - 向量運算的能效高很多。根據斯坦福大學韓松博士的論文 (https://arxiv.org/pdf/1506.02626v3.pdf)，讀取內存的能耗比加 / 乘運算操作的能耗高出好幾個數量級。大型神經網絡由于無法片上存儲，需要執行更多 DRAM 讀取操作，因此能耗還要更高。

　　圖源：https://arxiv.org/pdf/1506.02626v3.pdf

　　用通用處理器運行深度神經網絡時，擴大處理器規�？梢詭硇阅芴嵘幢阒皇切》嵘岔氁源罅磕芎暮途揞~設備成本為代價。

　　CPU 等通用處理器犧牲低能耗換取通用性，AI 加速器等專用處理器則犧牲通用性換取低能耗。

　　使用 AI 加速器則不一樣。AI 加速器通過改進設計，可以減少內存訪問，提供更大的片上緩存，還可以具備特定的硬件功能(如加速矩陣 - 矩陣計算)。由于 AI 加速器是基于特定而構建的設備，可根據算法進行適配改進，因此其運行效率會比通用處理器更高。

　　2

　　ML 硬件的分類 ——CPU、GPU、AI 加速器、FPGA 和 ASIC

　　接下來我們談談加速器的不同種類，以及它們的通用和專用程度。

　　如上圖所示，最具通用性的是 CPU，可以運行任意代碼。專用芯片可執行的任務，CPU 也能執行，如圖像處理、語音處理、機器學習等。然而，CPU 的性能和能效都比較低。

　　專用性最強的是專用集成電路(ASIC)，又稱固定功能芯片，因為它只能執行一種或幾種任務，而且通常不可編程，也沒有面向開發者的 API。耳機中的降噪處理器就是一種 ASIC 芯片，它需要同時具備低能耗和高性能，這樣才能既延長耳機電池使用時間，又能實現低延遲，以免用戶看節目時遇到聲畫不同步的糟糕體驗。

　　上圖中，越靠左代表通用性和可編程性越強;越靠右代表專用性和效率越高。那么 GPU、FPGA 和 AI 加速器分別處于圖中什么位置呢?

　　答案是：它們都處在這兩個極端之間。

　　靠近 ASIC 一端的是現場可編程邏輯門陣列(FPGA)。顧名思義，FPGA 是可編程的，但編程人員需要具備硬件設計知識，還須對 Verilog、VHDL 等硬件描述語言(HDL)有一定了解。換言之，FPGA 編程與硬件關聯度太高，而軟件開發人員缺乏這方面的編程技能和工具，因此難以對它進行編程。

　　靠近 CPU 一端的是 GPU。GPU 是面向特定目的處理器，擅長處理并行任務，例如圖形著色器計算和矩陣乘法。CPU 更適合延遲敏感型應用，GPU 則更適合要求高吞吐量的應用。GPU 與 CPU 的相似之處在于它們都可編程。而作為并行處理器，GPU 使用 NVIDIA CUDA 和 OpenCL 等語言，雖然能處理的任務種類比 CPU 少，但在運行包含并行任務的代碼時極高效。

　　Intel 的 Habana Gaudi 處理器、AWS 的 Trainium 和 Inferentia 芯片等 AI 加速器則處在 GPU 的右側。Habana Gaudi 處理器具備可編程性，但通用性比 GPU 更低，所以應處 GPU 右側。AWS 的 Inferentia 芯片不可編程，但可以加速多種操作，如果你的 ML 模型不支持這些操作，Inferentia 就會執行 CPU 回退(fallback)模式。綜上，Inferentia 應處 Habana Gaudi 的右側。

　　3

　　“硬件感知(Hardware-aware)” 的算法

　　和 “算法感知(Algorithms-aware)” 的硬件

　　通過以上分類，我們對各種處理器有了大致認識。下面我們來談談這些處理器如何與軟件互相配合。

　　通用計算模型有兩個組成部分：(1) 軟件與算法;(2) 運行軟件的硬件處理器。一般而言，這兩部分互相獨立 —— 編寫軟件時很少會考慮軟件會在什么硬件上運行;而硬件設計的出發點則是讓硬件盡可能支持更多種類的軟件。

　　通用計算模型逐漸演進，需要應用于深度學習等要求高性能和高能效的領域，因此需要加強算法設計和硬件設計之間的聯系�，F代 ML 計算模型同樣包含兩個組成部分：(1) ML 算法與軟件框架;(2) 與 AI 加速器配合使用的通用處理器。

　　不同于通用計算模型的開發，ML 研發人員會針對特定硬件設計 ML 算法。比如，編寫代碼時可以充分利用硬件的特定功能(如支持多種精度：INT8、FP16、BF16、FP32)實現特定的芯片功能(混合精度、結構化稀疏)。然后，用戶就可以通過常見的 ML 軟件框架使用這些功能。同理，硬件設計師會針對特定算法構建 AI 加速器。比如，為加速 ML 矩陣計算而設計專門的芯片功能(如 NVIDIA 在 Volta GPU 架構中引入 Tensor Core)。

　　這就是 AI 加速器和 ML 算法的協同進化。硬件設計師為 AI 加速器增加 ML 算法可以使用的功能，而 ML 研發人員則利用 AI 加速器的硬件功能量身設計新的算法。

　　硬件和軟件的協同可以帶來更好的性能和更高的能效。

　　4

　　AI 加速器與高效 ML 算法的協同進化

　　AI 加速器分為兩類： (1) 用于訓練的 AI 加速器; (2) 用于推理的 AI 加速器。由于訓練和推理的目標不同，而 AI 加速器是針對特定工作負載的專用處理器，因此有必要為不同類型的工作負載分別設計處理器。

　　用于訓練的 AI 加速器的目標是減少訓練時間，而且應具備能配合訓練算法的硬件特點。因此，AI 訓練加速器的功率通常較大，內存空間也較大，以滿足較高的吞吐量(每秒處理的數據)要求。由于 AI 訓練加速器注重吞吐量，因此提高吞吐量和利用率有助于降低能耗成本(即通過擴大吞吐量降低 “能耗 / 吞吐量” 之間的比率)。 AI 訓練加速器還支持混合精度訓練，使用較低精度以加快計算速度，使用高精度累積計算結果，從而實現比通用處理器更高的能效。 (后文還將詳談 AI 加速器的混合精度訓練。 )

　　AI 推理加速器的目標是，在運行大量獨立數據批次時降低預測延遲，因此需要具備高能效特點，需要降低 “能耗 / 預測” 之間的比率。雖然也可將訓練加速器用于推理加速(畢竟訓練中的前向傳播過程本質上即是一種推理任務)，但使用訓練加速器時，“能耗 / 推理” 之比會大很多，因為訓練加速器處理小型數據批次的推理請求時利用率較低。

　　訓練加速器就像公交車，只有保持乘客滿員才能實現高能效(油耗 / 乘客數之比低)。如果偌大的公交車每次只載一個人，其油耗 / 乘客數之比將變得極高。而推理加速器就像跑車，其速度比公交車快，只載一人時能效比公交車高(跑車的單名乘客油耗比公交車低)。但如果想用跑車一次載 50 個人，它就會跑得極慢(何況超載違法)。

　　下文將分別談論訓練和推理的工作流，以及 AI 加速器和軟件應具備什么特點才能在訓練和推理中實現高性能和高能效。

　　5

　　針對推理的 AI 加速器與高效算法

　　ML 推理即是根據新的數據使用訓練好的模型以輸出預測結果。本節將討論 AI 加速器上運行的可提升推理性能和效率的算法。

　　提升機器學習效率最重要的方法是量化。要充分理解量化，首先須了解計算機硬件中的數字表示方法。浮點數是數字計算機中用以表示連續實值的離散表示形式。ML 算法通�；� IEEE 754 標準用單精度(FP32)儲存和處理數字。IEEE 754 還規定了 AI 加速器支持的其他常見浮點類型，如半精度(FP16)和雙精度(FP64)。

　　現代 AI 加速器也支持 IEEE 754 以外的數字格式，例如 BF16(由 Google Brain 引進;NVIDIA Ampere GPU、AWS Inferential、AWS Tranium、Intel Habana Gaudi 和 Google TPU 均支持此格式)和 TF32(NVIDIA Ampere 架構和 AWS Tranium 芯片支持此格式)。推理加速器還支持整數精度，如 INT8 和 INT4。

　　量化在推理中的優勢

　　在推理任務中，模型權重和激活函數輸出均可被量化，例如可將 FP32(訓練常用精度)轉化為更低精度的表示形式(FP16、BF16 和 INT8)。使用較低精度可以獲得更高的性能和能效。當把 FP32 轉化為 FP16 操作時，數據大小可減半，能耗可減少約 75%(數據來源： https://arxiv.org/pdf/1506.02626v3.pdf ) ，使用的硅面積(silicon area)也可減少約 75%。

　　如果僅從推理的角度考慮硬件設計，可以構建僅供推理使用、僅支持較低精度的加速器，這樣就可以縮小加速器的尺寸，并提高能效。將運算結果從 FP32 轉化為 INT8 數據還可進一步減少能耗，因為數據大小減少到原來的 1/4。

　　然而，通過量化方法提升計算效率會損失一定的預測準確性。因為將高精度表示形式轉化為低精度本質上是一種壓縮，壓縮意味著會損失部分數據。FP32 的動態范圍比 FP16 和 INT8 更大，因此，推理中，量化的目的是保留數據中的 “信號”，去除數據中的 “噪聲”，為實現這個目的可以有多種方法。

　　使用 NVIDIA GPU 進行量化

　　NVIDIA 的 Ampere 和 Turing 等較新 GPU 架構均支持多種精度類型。2016 年，NVIDIA 在 Pascal 架構中首次引進了 FP16 精度類型，而最新的 Ampere 和 Turing 架構 GPU 均體現了 “硬件與算法的協同進化”。我之前寫過一篇文章介紹 GPU 的完整發展史和不同架構的 GPU 及其特點：Choosing the right GPU for deep learning on AWS( https://towardsdatascience.com/choosing-the-right-gpu-for-deep-learning-on-aws-d69c157d8c86 )。

　　本節將聚焦硬件和軟件層面如何支持 GPU 進行量化。

　　以 NVIDIA 的 Ampere 架構為例。你可以在 AWS 云服務器上通過啟動 Amazon EC2 p4d 實例或 G5 實例體驗 Ampere 架構的性能。p4d 和 G5 實例分別使用 NVIDIA 的 A100 和 A10G GPU，兩款 GPU 都基于 Ampere 架構，都支持 FP64、FP32、FP16、 INT8、BF16 和 TF32 精度類型，也都包含一種被 NVIDIA 稱為 “Tensor Core” 的運算單元，用于混合精度計算。推理時用到的重點精度類型只有 FP16 和 INT8 兩種(其他精度類型將在下一節中提到訓練時詳談)。

　　大多數深度學習框架都使用 NVIDIA GPU 和 FP32 格式訓練模型，因此 NVIDIA 推出 TensorRT 編譯器，用以加快推理速度。TensorRT 可將 FP32 格式的模型權重和激活函數量化為 FP16 和 INT8 格式。量化時，TensorRT 先確定一個比例因子(scaling factor)，然后根據該系數將 FP32 的動態范圍映射到 FP16 或 INT8 的動態范圍。映射到 INT8 的難度尤其高，因為 INT8 的動態范圍比 FP32 小太多。INT8 僅能表示 256 個數值，而 FP32 足足能表示 4.2×109 個數值。

　　如何在通過量化提高推理速度的同時減少精度損失?一般有兩種方法：

　　訓練后量化(PTQ)：使用一個訓練好的、以 FP32 格式計算的模型，確定比例因子，然后將 FP32 映射為 INT8。確定比例因子的方法是：TensorRT 衡量每個神經網絡層中激活函數輸出的分布，然后找到一個使參考分布(reference distribution)和量化分布(quantized distribution)之間信息損失(KL 散度)最小的比例因子。

　　量化感知訓練(QAT)：在訓練中計算比例因子，使模型可以適應信息損失并將信息損失降到最低。

　　可見，硬件不斷發展，具備更多可提升效率的功能(如降低精度)。同時，算法也不斷進化，可以更好地利用硬件的功能。

　　我的另一篇文章提供了 NVIDIA TensorRT 在 GPU 上實行量化的代碼示例 ( https://towardsdatascience.com/a-complete-guide-to-ai-accelerators-for-deep-learning-inference-gpus-aws-inferentia-and-amazon-7a5d6804ef1c )。

　　使用 AWS Inferentia 芯片進行量化

　　NVIDIA GPU 設計之初用于圖像處理加速，后來才演變成強大的 AI 加速器，而 AWS Inferentia 芯片一開始即是為機器學習推理而生。

　　每塊 AWS Inferentia 芯片含 4 個 NeuronCore。NeuronCore 是基于脈動陣列的矩陣相乘引擎，有兩級存儲層次結構和極大的片上緩存空間。AWS Inferentia 芯片支持 FP16、BF16 和 INT8 數據類型，不支持更高精度的格式 —— 畢竟 AWS Inferentia 是一種推理專用處理器，推理時無須用到更高的精度。正如 NVIDIA 為 GPU 推出了 TensorRT 編譯器，AWS 也推出了 AWS Neuron SDK 和 AWS Neuron 編譯器，該編譯器支持量化和優化，可提高推理效率。

　　盡管 AWS Inferentia 芯片支持 INT8 格式，但截至本文撰寫時，AWS Neuron 編譯器只支持量化到 FP16 和 BF16 格式。用 FP32 格式訓練的模型會在編譯過程中自動被轉化為 BF16 格式。如果在使用 AWS Neuron 編譯器之前人工將 FP32 格式的權重量化為 FP16，那么編譯器就會保留 FP16 精度用于推理。

　　與 GPU 相比，AWS Inferentia 芯片不可編程，專用性比 GPU 更強，更接近 ASIC。如果模型中包含的操作均為 AWS Inferentia 所支持，那么對于特定的模型和批次規模(batch size)而言，使用 Inferentia 就比使用 GPU 更能提高模型的能效。然而，如果模型含有 Inferentia 不支持的操作，AWS Neuron 編譯器會自動將相應操作置于主機 CPU 上，這就導致 CPU 和加速器之間需要進行數據搬運，進而降低性能和效率。

　　6

　　針對訓練的 AI 加速器與高效算法

　　ML 訓練即利用訓練數據優化模型參數，以提高模型的預測準確度。本節將討論 AI 加速器上運行的算法如何提升推理性能和能效。

　　接下來我們依舊會討論精度，不過這次是從訓練工作流的角度。如前所述，訓練時，模型權重和激活函數都以 FP32 格式存儲，FP32 遵循早在深度學習之前就誕生的 IEEE 754 浮點數標準。 FP32 之所以被選為機器學習默認的浮點數表示形式，是因為訓練時 FP16 可表示的信息量不夠大，而 FP64 可表示的信息量則太大，而且也不必用到這么高的精度。機器學習需要一種精度處在 FP16 和 FP64 之間的表示格式，但當時的硬件并不支持。

　　換言之，當時的硬件并不能滿足 ML 算法的需求，并未成為 “算法感知” 的硬件。

　　如果當時的 ML 研究人員有更好的選擇，他們應該會選一種不同于 FP32 的格式，或者使用混合精度來提升性能和效率。混合精度也正是目前 AI 加速器的發展方向。實現混合精度，需要硬件和算法的協同設計。

　　混合精度訓練提升性能與效率

　　矩陣乘法運算是神經網絡訓練和推理的基本操作。 AI 加速器的主要工作即為在神經網絡的不同層中將輸入數據和權重的大型矩陣相乘。混合精度訓練背后的思想是，訓練時的矩陣乘法發生在較低精度表示(FP16、BF16、TF32)，因此它們更快和能效更高，然后用 FP32 格式累積運算結果，以降低信息損失，從而提升訓練速度和能效。

　　使用 NVIDIA GPU 進行混合精度訓練

　　2017 年，NVIDIA 宣布推出 Volta GPU 架構，其中包含專門用于機器學習的 Tensor Core 運算單元。Tensor Core 通過 FP16 運算和 FP32 累積結果實現混合精度訓練( https://arxiv.org/abs/1710.03740 )。NVIDIA 的新一代新架構還支持更多低精度格式(BF16、TF32)。在芯片層次，Tensor Core 執行低精度(reduced-precision)融合乘加(FMA)運算，用 FP32 累積結果。

　　每一代 NVIDIA 架構的進步都體現了硬件和算法之間的協同設計和協同發展。

　　NVIDIA Volta 架構(2017)引入第一代 Tensor Core，當時僅支持 FP16 運算和 FP32 累積結果。

　　NVIDIA Turing 架構(2018)的 Tensor Core 支持更低精度的 INT8 和 INT4(主要可以加速推理，而非加速訓練)。

　　NVIDIA Ampere 架構(2020)的 Tensor Core 還支持 BF16 和 TF32，也就是說，它可以執行 FP16、BF16 和 TF32 運算，并且用 FP32 累積結果，以實現混合精度

　　混合精度訓練的一大難點是軟件層面的實現。用戶必須在訓練時執行額外的操作，比如將權重轉化為 FP16 格式，但同時會保留權重的 FP32 副本和損失縮放(loss scaling)。盡管 NVIDIA 可以讓深度學習框架在只需修改少量代碼的情況下執行這些操作，它對用戶的要求依然很高，不像使用 FP32 訓練那么簡單。

　　NVIDIA 的 Ampere 架構支持 TF32，可以有效解決這一用戶體驗難題。TF32 格式的好處在于，它結合了 FP32 的動態范圍和 FP16 的精度，因此深度學習框架無需轉換格式和保留副本等額外操作即可直接支持 TF32 格式。然而，在為開發者減少麻煩的情況下，使用 TF32 可實現比 FP32 更好的性能，但 NVIDIA 依然推薦使用 FP16 或 BF16 格式進行混合精度訓練，以便獲得最快的訓練性能。

　　使用其他 AI 加速器進行混合精度訓練

　　Intel Habana Gaudi 處理器

　　Habana Gaudi 加速器支持混合精度訓練的方式與 NVIDIA GPU 類似 —— 通過一個附加工具配合深度學習框架，使用格式轉換和副本保存功能。若想體驗 Intel Habana Gaudi AI 加速器的功能，可以通過 AWS 云服務器啟動 Amazon EC2 DL1 實例，該實例配備 8 個 Gaudi 加速器。

　　AWS Tranium 芯片

　　AWS 在 2021 年 re:Invent 大會上宣布推出 Tranium 芯片，該芯片由 AWS 的 Annapurna 實驗室研發，用于 AI 加速。目前，Tranium 芯片尚未得到大規模應用。AWS 在大會上介紹稱，Tranium 將支持 FP16、TF32、BF16、INT8，以及一種稱為 cFP8(定制 8 位浮點數)的全新格式。

　　7

　　AI 加速器的未來

　　如今，ML 算法研究和硬件設計都在蓬勃發展。AI 加速器也將在性能和能效方面持續進步，逐漸可以像通用處理器一樣無縫使用。

　　現代的 AI 加速器已具備理想中的硬件功能，例如支持 INT1 和 INT4，這兩種精度類型尚未被用于訓練和推理，但或許它們的存在可以催生新的 ML 算法。AI 加速器之間的互聯也漸見革新。

　　隨著模型規模越來越大，我們需要更大的計算集群，將更多 AI 加速器連接起來，從而支持更大的工作負載。為此，NVIDIA 推出了高帶寬的 NVLink 和 NVSwitch，用于 GPU 之間的互聯;Intel 的 Habana Gaudi 處理器則在片上集成了基于以太網的 RoCE RDMA。未來 AI 應用將更加廣泛， AI 加速器也將成為現代計算環境的中流砥柱。

　　希望未來的 AI 加速器帶來更好的用戶和開發者體驗。如今的異構計算模型需要協調多個 CPU 和 AI 加速器，對大部分數據科學家和開發人員而言，掌握它們的聯網和存儲設置難度頗高。使用 Amazon SageMaker 等云托管服務可省去管理基礎設施的麻煩，可以方便地擴大機器學習規模，然而，開源框架仍希望用戶對底層硬件、精度類型、編譯器選擇和聯網原語等有較深的了解。

　　未來，開發人員可以登入遠程 IDE，然后使用開源 ML 框架運行代碼，而不必考慮代碼在何種設備上以何種方式運行。他們唯一需要思考的只是成本和速度之間的權衡 —— 想獲得高速度就多花錢，想省錢就在速度上妥協。我是個樂觀的人，我認為距離這樣的未來已經不遠了。

　　(本文經授權后編譯發布。原文： https://towardsdatascience.com/ai-accelerators-machine-learning-algorithms-and-their-co-design-and-evolution-2676efd47179)

　　頭圖源自 brookhaven, Pixabay

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

realme新機首曝，預計為真我15 Pro《權力的游戲》限定版

榮耀500系列正式發布 2699元起

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

Copyright www.zxwl-tech.com 中文科技資訊 2009-2025 all rights reserved 網站聯系微信 xishuinet

關鍵詞：CITNews|Citnews中文科技資訊|中文科技資訊網|科技資訊網|中國科技資訊|中國科技新聞網|中國科技資訊網|快科技|新科技|中文科技數碼頭條號|中文移動新媒體

京ICP備18037198號-1 京公網安備 11010502041587號

国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
成人一级视频| 国产精品视频一区二区三区四蜜臂| 日韩av影视在线| 欧美大片网址| 亚洲人体视频| 一级成人国产| 国产精品久久久久精k8| 亚洲黄色在线| 欧美一区二区在线不卡| 在线看片日韩| 精品黄色免费中文电影在线播放| 亚洲人成电影网站色…| 成人精品中文字幕| 午夜精品一区二区在线观看的| 免费成人毛片| 亚洲成人午夜在线| 亚洲人成网在线播放| 亚洲另类春色校园小说| www国产精品com| 日韩三级精品电影久久久| 国内精品国产三级国产在线专| 老牛影视免费一区二区| 精品一区久久久久久| 亚洲精品一区二区在线播放∴| 欧美在线影院| 欧美日韩亚洲综合在线欧美亚洲特黄一级| 欧美精品成人91久久久久久久| 视频在线这里都是精品| 国产精品刘玥久久一区| 国产一区免费| 欧美区国产区| 国产精品美女呻吟| 精品福利免费观看| 91豆花精品一区| 国产在线高清理伦片a| 亚洲超碰在线观看| 色综合综合网| 26uuu久久综合| 二吊插入一穴一区二区| 国产精品区免费视频| 日韩不卡中文字幕| 亚洲3atv精品一区二区三区| 欧美激情在线一区二区| 高清精品xnxxcom| 欧美性猛交xxxx富婆| 欧美美女一区二区| 99国产精品久久久久久久久久| 国产欧美一区二区精品性| av在线看片| 婷婷精品国产一区二区三区日韩| 精品亚洲免费视频| 精品亚洲国产成av人片传媒| 成人福利片网站| 日韩在线观看网址| 欧美在线短视频| 欧美韩国亚洲| 二区在线视频| 98精品视频| 91av视频在线观看| 国产精品尤物福利片在线观看| 欧美精品免费观看二区| 天天综合精品| 日本麻豆一区二区三区视频| 成人做爽爽免费视频| 久久69精品久久久久久久电影好| 亚洲狠狠婷婷| 亚洲综合丝袜美腿| 亚洲亚洲一区二区三区| 亚洲国产天堂久久综合网| 亚洲一区二区三区免费在线观看| 国产网站在线| 亚洲国产另类久久精品| 国产一本一道久久香蕉| 欧美激情视频在线免费观看欧美视频免费一| www高清在线视频日韩欧美| 日本精品久久久| 午夜影视日本亚洲欧洲精品| 第84页国产精品| 国产精品福利久久久| 日韩av二区| www.九色在线| 亚洲精品国产品国语在线| 国产日产欧美a一级在线| 久久国产精品偷| 任你躁在线精品免费| 成人激情在线观看| 懂色av一区二区三区蜜臀| 亚洲成av人片乱码色午夜| 亚洲精品字幕| 欧美性bbwbbwbbwhd| 日本在线视频一区二区| 视频一区二区三区入口| 国产亚洲精品bv在线观看| 91夜夜蜜桃臀一区二区三区| 在线不卡中文字幕播放| 亚洲成av人影院| 国产精品乱码视频| 国产拍在线视频| 91视频国产观看| 日精品一区二区三区| 日韩大片在线观看视频| 亚洲人成毛片在线播放女女| 久久精品magnetxturnbtih| av片在线免费观看| 亚洲午夜久久| 激情欧美一区二区三区中文字幕| 精品国产亚洲在线| 在线播放一区二区三区| 久久久久久久久久久久久久久99| 色婷婷久久99综合精品jk白丝| 高清不卡一区二区| 91一区在线| 哺乳挤奶一区二区三区免费看| 欧美日韩精品在线| 91免费看片在线| 91成人精品| 免费在线观看黄色| 国产精品久久久久久久7电影| 欧美日韩在线亚洲一区蜜芽| 91久久久国产精品| 777精品伊人久久久久大香线蕉| 亚洲第一区中文99精品| 偷拍一区二区三区四区| 成人性视频网站| 国产激情综合五月久久| 在线观看的网站你懂的| 羞羞答答成人影院www| 国产精品久久久久久| 开心久久婷婷综合中文字幕| 在线观看网站免费入口在线观看国内| 亚洲福利精品在线| 久久国产精品久久精品国产| 寂寞少妇一区二区三区| 国产午夜精品一区二区| 久久亚洲精华国产精华液| 欧美精品九九久久| 亚洲色图19p| 91最新地址在线播放| 久久精品国产99| 经典一区二区| 国产影视精品一区二区三区| 久久久三级国产网站| 亚洲精选国产| 牛牛影视一区二区三区免费看| 中文有码一区| 91综合视频| 中文字幕伦理免费在线视频| 美女羞羞视频在线观看| 日本动漫同人动漫在线观看| 一区二区三区在线免费播放| 国产无遮挡裸体视频在线观看| 亚洲国产精品视频| 一区二区三区日本| 日韩欧美不卡| 久久看人人摘| 中文字幕亚洲情99在线| 成人一级黄色片| 一级中文字幕一区二区| 51xtv成人影院| 亚洲欧美精品在线观看| 国产精品青草久久| 牛人盗摄一区二区三区视频| 中文字幕一区二区三区乱码在线| 欧美日韩伦理在线免费|