Radeon Vega 7nm

「Vega 7nm」顯示卡技術

世界上第一款「Vega 7nm」GPU

Radeon Instinct and Epyc

提供高效能運算的加速器

隨著 EPYC™ 伺服器處理器和 Radeon Instinct™ GPU 加速器的問世,機器智慧和 HPC 的異質運算新紀元已到來。

HPC 和深度學習展開橫向擴展運算新紀元

如要真正加快深度學習的腳步並解決資料中心的各種需求,需要結合高效能運算和最佳化 GPU 加速,運用分散在許多核心的許多浮點運算來處理大量資料。現今大型系統的設計人員也需要能夠設計具靈活彈性和開放性的有效率系統,以因應現今繁重工作量的挑戰來進行系統組態配置。

AMD 為設計人員提供這些能力,讓他們能進一步提升可達成的運算密度標準,在開放而有彈性的環境中最佳化伺服器設計,提供更高效能、降低延遲並改善效率。隨著搭載 EPYC 處理器的伺服器及 Radeon Instinct GPU 加速器的問世,加上我們的 ROCm 開放軟體平台,AMD 走入 HPC 和深度學習的異質運算新紀元。

Radeon Instinct™ MI25 伺服器加速器

AMD 推出基於開放標準的 Radeon Instinct 系列產品,改變了遊戲規則。Radeon Instinct 加速器,結合我們對異質運算採取的開放生態系統方式,提高可達成效能的標準、效率和靈活彈性,來設計系統性能,以因應現今資料中心繁重工作量的挑戰。

全新 Radeon Instinct MI25 加速器以 AMD 新一代「Vega」架構為基礎,並搭載其功能強大的平行運算引擎,是全球終極的訓練加速器,適用於大規模的深度學習應用,可處理 HPC 的繁重工作量,提供 24.6 TFLOPS 的 FP16 和 12.3 TFLOPS 的 FP32 尖峰單精度浮點效能。1 結合此開放 ROCm 軟體平台的強大效能和世界最先進的 GPU 記憶體架構、16GB HBM2,以及最高 484 GB/s 記憶體頻寬,為您提供符合現今運​算工作負載的終極解決方案。

Radeon Instinct MI25 特點:

  • 內建 AMD 的下一代「Vega」架構和世界最先進的 GPU 記憶體架構​
  • 為 HPC 和深度學習提供優異的 FP16 和 FP32 效能
  • ROCm 開放軟體平台,適合 HPC 等級機架規模
  • Large BAR 支援 mGPU 點對點運算
  • MxGPU 硬體技術,用於最佳化資料中心使用率

當結合搭載新型 AMD EPYC™ 處理器的伺服器和 Radeon Instinct MI25 加速器時,可提供優異的運算密度和每節點效能​

EPYC™ 提供的記憶體界限 HPC 效能

AMD EPYC 處理器針對記憶體界限 HPC 工作量提供出色的效能

HSA and Rocm logos

ROCm 開放軟體平台

ROCm 開放軟體平台為 HPC 等級異質運算和世界級資料中心系統設計提供開放原始碼基礎。ROCm 平台針對 Linux® 驅動程式、編譯器、工具和資料庫提供最佳化的效能。ROCm 的軟體設計哲學提供程式設計選擇,極簡和模組化軟體開發方式,以進一步最佳化 GPU 加速器運算。

結合此方式和 AMD 的安全硬體’虛擬化 MxGPU 技術,系統設計人員現在可以改變設計系統的方式,以提高效率,並促進最佳化資料中心使用率和處理能力。

ROCm 基礎元素:

  • 開放無週邊 Linux® 64 位元驅動程式和針對超級規模和 HPC 等級運算最佳化豐富的系統執行時期堆疊
  • 多 GPU 運算使用驅動程式中的直接 RDMA 對等同步支援,來支援透過 RDMA 的伺服器節點來回通訊
  • 簡化程式設計模型,在需要時為開發人員提供控制力
  • HCC 真正單一來源 C++ 異質編譯器可處理整個系統的需求,而不只是單一裝置
  • HIP CUDA 轉換工具為使用 GPU 運算 API 提供平台選擇

ROCm 開放軟體平台透過最佳化開放 Linux 驅動程式和不受語言影響的豐富式 ROCr 系統執行時期,為大規模機器智慧和 HPC 資料中心部署提供穩固基礎,並大幅使用異質系統架構 (HSA) 執行時期 API。此方式為執行程式設計語言 (例如 HCC C++、Khronos Group’s OpenCL™、Continuum’s Anaconda Python 和 HIP CUDA 轉換工具) 提供豐富基礎。2

AMD 將持續為 HPC 和深度學習部署,針對我們的 Radeon™ GPU 加速器秉持開放方式,來擴充對 NUMA 類別加速所需關鍵的支援。ROCm 平台現在支援我們的全新 Radeon Instinct GPU 加速器系列產品,並仍將支援我們的多個其他 AMD FirePro™ S 系列、Radeon™ RX 系列和 Radeon™ Pro Duo 顯示卡。請造訪 ROCm 網站,以檢視支援的 GPU 顯示卡完整清單。

OpenCL logo

OpenCL™、OpenMP 與 OpenACC 支援

AMD 持續支援我們所提供最新產品的這些標準3。我們相信大部分 HPC 社群成員均企盼開放標準成為執行專案與模擬可以依循的方式,AMD 致力於支持這個目標且正與社群密切合作朝開放標準的目標努力。

註解
  1. TFLOPS 計算:FLOPS 計算方式是取最高 DPM 狀態的引擎時脈再乘以每 GPU 的 xx CU。然後,將該值乘以每個 CU 中的 xx 個串流處理器。接著,再將該值乘以 FP32 的每時脈 2 FLOPS。如要針對 FP16 計算 TFLOPS,會使用每時脈 4 FLOPS。FP64 TFLOPS 速率的計算是使用 1/16 速率而得。
  2. 預計將支援 Python,但仍在開發中。
  3. 有些 S 系列顯示卡可能僅支援所列出的部份標準。請參考每張卡的產品規格以取得更多關於所支援 API 的細節。