AMD EPYC™ 處理器有助於將大型顯示卡投資的價值最大化

顯示卡加速器已經成為現代 AI 的主力,善於訓練大型、複雜的模型,並支援大規模的高效率即時推論。然而,將您顯示卡投資的潛力最大化需要強大的處理器合作夥伴。

為什麼要使用顯示卡來處理 AI 工作負載?

顯示卡是許多 AI 工作負載的正確工具。

  • AI 訓練:顯示卡藉由平行處理能力,加速大型和中型模型的訓練。
  • 專用 AI 部署:顯示卡提供大規模部署中即時推論所需的速度和擴充性

處理器的優勢:

結合顯示卡的強大威力與合適的處理器,可大幅提升特定工作負載的 AI 效率。尋找下列主要處理器功能:

  • 高頻率的 EPYC 處理器:快速又有效率地處理大量的資料準備和後處理任務。
  • 大型快取記憶體大小:加快資料存取大量資料集的速度。
  • 高記憶體頻寬與高效能 I/O:可在處理器和顯示卡之間快速流暢地交換資料。
  • 節能核心:釋放顯示卡使用的電力,有助於降低整體能耗成本。
  • 與顯示卡和軟體生態系統相容:可實現最佳效能、效率和順暢運作。
GPU System with AMD EPYC and Instinct

AMD EPYC 9005 處理器

高頻率 AMD EPYC 9005 系列處理器是釋放顯示卡處理龐大 AI 工作負載真正潛力的最佳選擇。作為主控處理器,AMD EPYC 9005 有助於確保顯示卡在正確的時間取得後續處理工作所需要的正確資料,這對於實現最佳的 AI 工作負載輸送量和系統效率而言至關重要。  AMD EPYC 高頻率處理器脫穎而出的關鍵因素是其高核心頻率和大記憶體容量。若要了解這些關鍵因素如何提高顯示卡輸送量,請閱讀此文章

應用與產業

由 AMD EPYC 處理器推動的顯示卡加速器式解決方案驅動全球許多最快的超級電腦和雲端執行個體,為企業提供經過實證的平台,可最佳化資料導向的工作負載,並在 AI 方面達到突破性的成果。

AMD EPYC 9005 系列處理器:最大化大型顯示卡投資價值的正確選擇

處理器在協調和同步處理顯示卡之間的資料傳輸、處理內核啟動負擔,以及管理資料準備方面扮演著重要的角色。這項「指揮」功能有助於讓顯示卡以最高效率運作。

以高效能處理器最佳化顯示卡投資價值

許多 AI 工作負載會受惠於高處理器時脈速度,藉由簡化資料處理、傳輸和同時執行來提高顯示卡效率,進而增強顯示卡效能。EPYC 9575F 是專為成就優異 AI 主控節點效能所打造的處理器,速度最高可達 5GHz。

比較搭載 8 個顯示卡加速器的雙路伺服器

比較 AMD 與 Intel 主控節點處理器在搭配 AMD Instinct 顯示卡時之表現
MLPerf® v4.1 Inference Llama 2-70B 基準測試¹
8 個 AMD Instinct™ MI300X + 雙路 EPYC 第五代 9575F(64 核心 – 5GHz)
1.11x
8 個 AMD Instinct™ MI300X + 雙路 Xeon 8460Y+(40 核心 – 3.7GHz)
1.0 倍

推論 - Llama3.1-70B Inference 基準測試 (BF16)²
8 個 Nvidia H100 + 雙路 EPYC 第五代 9575F(64 核心)
~1.20x
8 個 Nvidia H100 + 雙路 Xeon 8592+(64 核心)
1.0 倍
訓練 - Llama3.1-8B Inference 基準測試 (FP8)³
8 個 Nvidia H100 + 雙路 EPYC 第五代 9575F(64 核心)
~1.15x
8 個 Nvidia H100 + 雙路 Xeon 8592+(64 核心)
1.0 倍

高效率部署企業 AI

第 5 代 AMD EPYC 是結合高效能、低耗電量、高效率資料處理,以及有效電源管理功能的處理器,讓您的 AI 基礎架構能以最高效能運作,同時最佳化能耗和成本。

AMD EPYC 處理器能夠促進伺服器的能源效率,提供卓越的效能並協助降低能源成本。您可以放心部署,打造節能解決方案,並協助最佳化您的 AI 旅程。

AMD EPYC 9005 系列處理器中,AMD Infinity Power Management 提供優異的預設效能,並可針對特定工作負載的行為進行微調。

Abstract illustration with glowing blue lines

安心安全:以可信賴的解決方案導入 AI

選擇由 AMD EPYC 處理器託管,經過多項認證或驗證的顯示卡加速解決方案,可大幅提升您的 AI 工作負載。

使用其他顯示卡?歡迎洽詢領先平台解決方案供應商所提供的 AMD EPYC 處理器驅動解決方案,包括 Asus、Dell、Gigabyte、HPE、Lenovo 和 Supermicro。

AMD EPYC 處理器和顯示卡雲端 AI/ML 執行個體選項的生態系統正在成長

向 AWS、Azure、Google、IBM Cloud 和 OCI 等主要雲端供應商請求提供結合 AMD EPYC 處理器與 AI/ML 工作負載之顯示卡的執行個體。

server room photo

資源

AMD Instinct 加速器

非常適合用來推進需求最嚴苛的 AI 工作負載。

AMD EPYC 企業 AI 簡介

尋找使用處理器和顯示卡說明 AI 與機器學習創新的 AMD 和合作夥伴文件

Podcast

收聽 AMD 與業界的頂尖技術專家討論有關伺服器、雲端運算、AI、HPC 等最新熱門主題。

尾註
  1. 9xx5-013:MLPerf™ Inference 官方分數 v4.1 Llama2-70B-99.9 伺服器每秒字符數與離線每秒字符數結果,係取自 https://mlcommons.org/benchmarks/inference-datacenter/ 中的下列條目(造訪日期:2024 年 9 月 1 日):4.1-0070 (preview) 和 4.1.0022。MLPerf™ 名稱和標誌是 MLCommons Association 在美國和其他國家/地區的商標。保留所有權利。嚴禁未經授權的使用行為。如需更多資訊,請參閱 www.mlcommons.org。
  2. 9xx5-014:Llama3.1-70B 推論輸送量結果係依據截至 2024 年 9 月 1 日的 AMD 內部測試結果。Llama3.1-70B 組態:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,輸入/輸出字符組態(使用案例):[BS=1024 I/O=128/128, BS=1024 I/O=128/2048, BS=96 I/O=2048/128, BS=64 I/O=2048/2048]。結果的單位為字符數/秒。雙路 AMD EPYC 9575F   (總計 128 核心),搭配 8 個 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113 (Determinism=Power,SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches);雙路 Intel Xeon Platinum 8592+(總計 128 核心),搭配 8 個 NVIDIA H100 80GB HBM3,1TB 16x64GB DDR5-5600,3.2TB Dell Ent NVMe® PM1735a MU,Ubuntu 22.04.3 LTS,kernel-5.15.0-118-generic (processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance),BIOS 2.1 (Maximum performance, SR-IOV=On),I/O 字符數 批次大小 EMR Turin 相對比例 128/128 1024 814.678 1101.966 1.353 128/2048 1024 2120.664 2331.776 1.1 2048/128 96 114.954 146.187 1.272 2048/2048 64 333.325 354.208 1.063 平均輸送量增加 1.197 倍。視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。
  3. 9xx5-015:Llama3.1-8B(BF16,最大序列長度 1024)訓練測試結果根據 AMD 的內部測試,資料截至 2024 年 9 月 5 日為止。Llama3.1-8B 組態:最大序列長度 1024,BF16,Docker: huggingface/transformers-pytorch-gpu:latest;雙路 AMD EPYC 9575F (總計 128 核心),搭配 8 個 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113 (Determinism=Power,SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),每秒訓練樣本數:31.79 個;雙路 Intel Xeon Platinum 8592+(總計 128 核心),搭配 8 個 NVIDIA H100 80GB HBM3,1TB 16x64GB DDR5-5600,3.2TB Dell Ent NVMe® PM1735a MU,Ubuntu 22.04.3 LTS,kernel-5.15.0-118-generic (processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance),BIOS 2.1 (Maximum performance, SR-IOV=On),每秒訓練樣本數:27.74 個;平均輸送量增加 1.146 倍。  視系統組態、軟體版本及 BIOS 設定等因素而定,結果可能有所不同。