可因應企業 AI 推論工作負載的領導產品組合

AI 推論使用經過訓練的 AI 模型,對新資料進行預測。AMD 根據您的模型大小和應用程式要求,提供一系列的 AI 推論解決方案。AMD EPYC™ 處理器很適合中小型 AI 模型和工作負載,鄰近資料是這類工作的關鍵。對於不重視延遲的批量或離線處理應用,AMD EPYC 處理器提供了經濟實惠的推論解決方案。

AMD EPYC 處理器在眾多 AI 工作負載上都有良好的執行表現,下方所列只是其中的一部分。若要深入瞭解每種類型的工作負載,請閱讀此文章及其詳細資訊

低延遲容忍
 

系統類型

案例

理論基礎

推薦系統

  • 內容過濾
  • 協同過濾
  • 分類與相似性
  • 通常使用較小的模型
  • 支援稀疏和多樣化的資料
  • 可容忍某程度的不精準

機器學習

  • 決策樹
  • 線性迴歸
  • 支持向量機
  • 使用順序運算
  • 各種數學計算

中等延遲容忍
 

系統類型

案例

理論基礎

自然語言處理

  • 文本分類
  • 情感分析
  • 文字轉語音和語音轉文字
  • 為達特定人類理解率需要一定的效能
  • 較小的模型和資料集

採用 AI 的混合應用程式

  • 資料庫分析
  • 模擬和建模
  • 即時互動
  • 循序資料處理
  • 需在工作流程中快速切換情境

高延遲容忍

系統類型

案例

理論基礎

生成式 AI

  • 文件生成
  • 文字轉圖片生成
  • 圖片轉影片生成
  • 常有重複性的批量生成工作流程
  • 用於傳統上的人工時間與資源密集型任務

大型語言模型

  • 聊天機器人
  • 摘要
  • 翻譯
  • 較小的提示大小
  • 較小的資料集

應用與產業

整合在電腦視覺、自然語言處理和推薦系統中的 AI 模型,已對多種產業的企業造成顯著的影響。這些模型可協助公司辨識物體、分類異常狀況、瞭解書面文字與語音文字,以及提出建議。藉由加速開發這些模型,各行各業的企業都能從中獲益。

Automated Driving Illustration

新聞汽車

電腦視覺模型有助於推動自動駕駛車輛,可協助辨識要避開的看板、行人和其他車輛。自然語言處理模型有助於辨識車內智慧車載系統所接獲的指令。

data image

金融服務

採用 AI 技術的異常偵測功能有助於遏止信用卡詐騙,而電腦視覺模型則會監看可疑文件,包括客戶查核。

abstract retail image

零售

藉由辨識產品來自動化結帳流程,或甚至建立自動購物體驗,讓模型將客戶與其所挑選並放入購物袋中的商品連結。使用產品推薦引擎,提供線上或店內的替代選擇。

Manufacturing  Gears

製造

使用電腦視覺模型,監測從食物品項到印刷電路板等製造產品的品質。將遙測資料輸入建議引擎,提供主動維護建議:磁碟機是否即將故障?引擎是否過度耗油?

Top view of cardiologist doctor medical healthcare desk

醫療

使用電腦視覺模型偵測異常狀況,包括骨折與腫瘤。將相同模型用於研究中,評估試管內細胞的成長和增生。

Big data analytics AI technology

服務自動化

當 IT 遇上客戶需求時,自然語言處理有助於根據所說的要求採取行動,而推薦引擎則可協助引導客戶取得滿意的解決方案和產品替代方案。

企業 AI 推論工作負載的理想選擇

無論是部署為單純的處理器,或當作指揮中樞,從旁控管顯示卡對於較大型模型的執行,AMD EPYC™ 9005 系列處理器都是以最新的開放標準技術設計而成,可加速企業 AI 推論工作負載。

專為 AI 推論而設計的架構

多達 192 個 AMD “Zen 5” 核心:搭配完整的 512b 寬大資料路徑作為 AVX-512 指令支援,為 AI 推論工作負載提供優異的平行處理能力,減少對顯示卡加速的需求。

專為同時進行 AI 和傳統工作負載而設計:第 5 代 AMD EPYC 處理器為傳統工作負載提供最高的整數效能。1 AMD EPYC 處理器可在各種 AI 工作負載和模型大小之間提供有效率的推論能力。

快速的處理與 I/O:與前一代相比,處理 AI 工作負載時的每時脈週期指令數 (IPC) 增加 37%2,且支援 DDR5 記憶體與 PCIe® 第 5 代 I/O,提供快速的資料處理。

AMD EPYC™ 9005 Series

適用於 AI 推論的 AMD 軟體最佳化

架構支援:AMD 支援最受歡迎的 AI 架構,包括 TensorFlow、PyTorch 與 ONNX Runtime,範圍橫跨影像分類和推薦引擎等多種使用案例。

開放原始碼與相容性:最佳化功能已整合至常見的架構中,提供廣泛的相容性與開放原始碼的上游友善性。此外,AMD 也與 Hugging Face 合作,搭配 ZenDNN 打造開箱即用的開放原始碼模型。

ZenDNN 外掛程式:這些外掛程式透過最佳化運算子、利用微核心,以及在 AMD EPYC 核心上執行有效率的多執行緒處理,加速 AI 推論工作負載。

影像縮放
AMD Software Optimizations Diagram

在 AI 的時代,資料安全性更為重要

數位化、雲端運算、AI 和其他新興技術的使用帶動了資料的成長,對進階安全措施的需求也變得更加迫切。由於全球對於隱私權法規日益重視,又對資料外洩祭出嚴重罰則,因此原已升溫的安全性需求又被進一步放大,在安全風險增加的大環境下,更凸顯出資料無與倫比的價值。

內建於矽晶層級的 AMD Infinity Guard,可提供抵禦內部和外部威脅所需的進階功能,並協助保護您的資料安全。3

Cyber security illustration

AI 工作負載模型

採用 AMD EPYC™ 9005 處理器的伺服器和雲端實體,能在靠近您的客戶和資料的地方,提供快速、有效率、採用 AI 技術的解決方案。

雙路伺服器執行 Llama3.1-8B BF16⁴ 的表現(每秒字符數的相對比例)
第 5 代 AMD EPYC™ 9965
1.8x
第 4 代 AMD EPYC™ 9654
1.3 倍
第 5 代 Xeon® Platinum® 8592+
1.0 倍
雙路伺服器執行 FAISS⁵ 的表現(每小時的要求數)
第 5 代 AMD EPYC™ 9965
3.8x
第 4 代 AMD EPYC™ 9654
2.0x
第 5 代 Xeon® Platinum® 8592+
1.0 倍
雙路伺服器執行 TPCx-AI @ SF30⁶ 的表現(每分鐘的輸送量)
第 5 代 AMD EPYC™ 9965
3.8x
第 4 代 AMD EPYC™ 9654
2.3x
第 5 代 Xeon® Platinum® 8592+
1.0 倍
雙路伺服器執行 XGBoost @ SF30⁷ 的表現(每小時的執行量)
第 5 代 AMD EPYC™ 9965
3.0x
第 4 代 AMD EPYC™ 9654
2.0x
第 5 代 Xeon® Platinum® 8592+
1.0 倍

資源

AMD EPYC 企業 AI 簡介

尋找說明 AI 與機器學習創新的 AMD 和合作夥伴文件

AMD EPYC 9005 系列處理器

採用 AMD EPYC™ 9005 處理器,能在接近企業資料的位置進行快速、有效率的 AI 推論,帶動變革性的業務效能。

Podcast

收聽 AMD 與業界的頂尖技術專家討論有關伺服器、雲端運算、AI、HPC 等最新熱門主題。

尾註
  1. 9xx5-002D:SPECrate®2017_int_base 比較是基於截至 2024 年 10 月 10 日 www.spec.org 上所公佈的分數。雙路 AMD EPYC 9965(3000 SPECrate®2017_int_base,共 384 個核心,500W TDP,$14,813 CPU $),6.060 SPECrate®2017_int_base/CPU W,0.205 SPECrate®2017_int_base/CPU $,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.html)雙路 AMD EPYC 9755(2720 SPECrate®2017_int_base,共 256 個核心,500W TDP,$12,984 CPU $),5.440 SPECrate®2017_int_base/CPU W,0.209 SPECrate®2017_int_base/CPU $,https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44824.html)雙路 AMD EPYC 9754(1950 SPECrate®2017_int_base,共 256 個核心,360W TDP,$11,900 CPU $),5.417 SPECrate®2017_int_base/CPU W,0.164 SPECrate®2017_int_base/CPU $,https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)雙路 AMD EPYC 9654(1810 SPECrate®2017_int_base,共 192 個核心,360W TDP,$11,805 CPU $),5.028 SPECrate®2017_int_base/CPU W,0.153 SPECrate®2017_int_base/CPU $,https://www.spec.org/cpu2017/results/res2024q1/cpu2017-20240129-40896.html)雙路 Intel Xeon Platinum 8592+(1130 SPECrate®2017_int_base,共 128 個核心,350W TDP,$11,600 CPU $),3.229 SPECrate®2017_int_base/CPU W,0.097 SPECrate®2017_int_base/CPU $,http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)雙路 Intel Xeon 6780E(1410 SPECrate®2017_int_base,共 288 個核心,330W TDP,$11,350 CPU $)4.273 SPECrate®2017_int_base/CPU W,0.124 SPECrate®2017_int_base/CPU $,https://spec.org/cpu2017/results/res2024q3/cpu2017-20240811-44406.html)SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。請參閱 www.spec.org 瞭解更多資訊。Intel 處理器 TDP,網址為 https://ark.intel.com/
  2. 9xx5-001:根據截至 2024 年 9 月 10 日的 AMD 內部測試,在固定頻率下的幾何平均效能 (IPC) 有所提升。- 第 5 代 EPYC 處理器 ML/HPC 伺服器工作負載的世代 IPC 提升為 1.369 倍(幾何平均),使用一組 24 個工作負載,且為代表性 ML 伺服器工作負載(幾何平均)和代表性 HPC 伺服器工作負載(幾何平均)的幾何平均。“Genoa 配置(全 NPS1)Genoa”配置:EPYC 9654 BIOS TQZ1005D 12c12t (1c1t/CCD in 12+1),FF 3GHz,12x DDR5-4800 (2Rx4 64GB),32Gbps xGMI;“Turin” 配置(全 NPS1):   EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 1c1t/CCD),FF 3GHz,12x DDR5-6000 (2Rx4 64GB),32Gbps xGMI;所有工作負載均使用 Ubuntu 22.04(含 6.8.0-40-generic 內核作業系統)上的效能決定模式和效能管理員,唯有 LAMMPS、HPCG、NAMD、OpenFOAM 和 Gromacs 使用的是 24.04(含 6.8.0-40-generic 內核)。SPEC® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的註冊商標。更多詳情請參閱 spec.org。
  3. GD-183A 不同世代和/或系列的 EPYC™ 處理器具有不同的 AMD Infinity Guard 功能。伺服器 OEM 和/或雲端服務供應商必須啟用 Infinity Guard 安全性功能才能執行。請諮詢您的 OEM 或供應商,以確認是否支援這些功能。如需瞭解更多關於 Infinity Guard 的資訊,請前往 https://www.amd.com/en/products/processors/server/epyc/infinity-guard.html
  4. 9xx5-009:Llama3.1-8B 輸送量結果係依據截至 2024 年 9 月 5 日的 AMD 內部測試結果。Llama3-8B 組態:IPEX.LLM 2.4.0,NPS=2,BF16,批次大小 4,使用案例輸入 / 輸出字符數組態:[摘要 = 1024/128,聊天機器人 = 128/128,翻譯 = 1024/1024,論文 = 128/1024,字幕 = 16/16]。   雙路 AMD EPYC 9965(總計 384 核心),6 個 64 核心實體,1.5TB 24x64GB DDR5-6400(以 6000 MT/s 執行),1 DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.3 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C,(SMT=off, Determinism=Power, Turbo Boost=Enabled),NPS=2;雙路 AMD EPYC 9755(總計 256 核心),4 個 64 核心實體,1.5TB 24x64GB DDR5-6400(以 6000 MT/s 執行),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.3 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C (SMT=off, Determinism=Power, Turbo Boost=Enabled),NPS=2;雙路 AMD EPYC 9654(總計 192 核心),4 個 48 核心實體,1.5TB 24x64GB DDR5-4800, 1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,5.15.85-051585-generic (tuned-adm profile throughput-performance, ulimit -l 1198117616, ulimit -n 500000, ulimit -s 8192),BIOS RVI1008C (SMT=off, Determinism=Power, Turbo Boost=Enabled),NPS=2;對比雙路 Xeon Platinum 8592+ (總計 128 核心),2 個 64 核心實體,開啟 AMX,1TB 16x64GB DDR5-5600,1DPC,1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe,3.84 TB KIOXIA KCMYXRUG3T84 NVMe®,Ubuntu 22.04.4 LTS 6.5.0-35-generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192),BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost = Enabled)。  成果:處理器 雙路 EMR 64c 雙路 Turin 192c 雙路 Turin 128c 雙路 Genoa 96c 平均 加總 中位數 總輸送量 99.474 193.267 182.595 138.978 與競爭對手相比 1 1.943 1.836 1.397 世代比較 NA 1.391 1.314 1 結果可能會因系統組態、軟體版本及 BIOS 設定等因素而有不同。
  5. 9xx5-011:FAISS(每小時的要求數)輸送量結果係依據截至 2024 年 9 月 5 日的 AMD 內部測試結果。FAISS 組態:sift1m 資料集,16 核心實體,FP32, MKL 2024.2.1    雙路 AMD EPYC 9965(總計 384 核心),24 個 16 核心實體,1.5TB 24x64GB DDR5-6400(以 6000 MT/s 執行),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C (SMT=off, Determinism=Power, Turbo Boost=Enabled),NPS=4;雙路 AMD EPYC 9654(總計 192 核心),12 個 16 核心實體,1.5TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C (SMT=off, Determinism=Power),NPS=4;對比雙路 Xeon Platinum 8592+(總計 128 核心),8 個 16 核心實體,開啟 AMX,1TB 16x64GB DDR5-5600,1DPC,1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe,3.84 TB KIOXIA KCMYXRUG3T84 NVMe,Ubuntu 22.04.4 LTS,6.5.0-35 generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192),BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost = Enabled) 結果:處理器 中位數 相對輸送量 世代比較 雙路 Turin 192C 64.2 3.776 1.861 雙路 Genoa 96C 34.5 2.029 1 雙路 EMR 64C 17 1 NA 結果可能會因系統組態、軟體版本及 BIOS 設定等因素而有不同。
  6. 9xx5-012:TPCxAI @SF30 多實體 32 核心實體大小輸送量結果是根據 AMD 執行多個 VM 實體的內部測試,資料截至 2024 年 9 月 5 日為止。彙總端對端 AI 輸送量測試是從 TPCx-AI 基準測試衍生而來,因此無法與已發佈的 TPCx-AI 結果相比,因為端對端 AI 輸送量測試結果不符合 TPCx-AI 規格。雙路 AMD EPYC 9965(總計 384 核心),12 個 32 核心實體,NPS1,1.5TB 24x64GB DDR5-6400(以 6000 MT/s 執行),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C (SMT=off, Determinism=Power, Turbo Boost=Enabled);雙路 AMD EPYC 9755(總計 256 核心),8 個 32 核心實體,NPS1,1.5TB 24x64GB DDR5-6400(以 6000 MT/s 執行),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192),BIOS RVOT0090F (SMT=off, Determinism=Power, Turbo Boost=Enabled);雙路 AMD EPYC 9654(總計 192 核心),6 個 32 核心實體,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C (SMT=off, Determinism=Power),對比雙路 Xeon Platinum 8592+(總計 128 核心),4 個 32 核心實體,開啟 AMX,1TB 16x64GB DDR5-5600,1DPC,1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe,3.84 TB KIOXIA KCMYXRUG3T84 NVMe,Ubuntu 22.04.4 LTS,6.5.0-35 generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192),BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost = Enabled) 結果:處理器 中位數 相對比例 世代比較 Turin 192C, 12 Inst 6067.531 3.775 2.278 Turin 128C, 8 Inst 4091.85 2.546 1.536 Genoa 96C, 6 Inst 2663.14 1.657 1 EMR 64C, 4 Inst 1607.417 1 NA 結果可能會因系統組態、軟體版本及 BIOS 設定等因素而有不同。TPC、TPC Benchmark 和 TPC-C 是 Transaction Processing Performance Council 的商標。
  7. 9xx5-040A:XGBoost(每小時的執行量)輸送量結果係依據截至 2024 年 9 月 5 日的 AMD 內部測試結果。XGBoost 組態:v2.2.1,Higgs Data Set,32 核心實例,FP32 雙路 AMD EPYC 9965(總計 384 核心),12 個 32 核心實體, 1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-45-generic (tuned-adm profile throughput-performance, ulimit -l 198078840, ulimit -n 1024, ulimit -s 8192),BIOS RVOT1000C,(SMT=off, Determinism=Power, Turbo Boost=Enabled),NPS=1,雙路 AMD EPYC 9755(總計 256 核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198094956, ulimit -n 1024, ulimit -s 8192),BIOS RVOT0090F (SMT=off, Determinism=Power, Turbo Boost=Enabled),NPS=1,雙路 AMD EPYC 9654(總計 192 核心),1.5TB 24x64GB DDR5-4800, 1DPC,2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198120988, ulimit -n 1024, ulimit -s 8192),BIOS TTI100BA (SMT=off, Determinism=Power),NPS=1,與雙路 Xeon Platinum 8592+ (總計 128 核心)相比,AMX On,1TB 16x64GB DDR5-5600,1DPC,1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe,3.84 TB KIOXIA KCMYXRUG3T84 NVMe®,Ubuntu 22.04.4 LTS 6.5.0-35-generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192),BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost = Enabled) 結果:處理器 執行 1 執行 2 執行 3 中位數 相對輸送量 世代比較 雙路 Turin 192C, NPS1 1565.217 1537.367 1553.957 1553.957 3 2.41 雙路 Turin 128C, NPS1 1103.448 1138.34 1111.969 1111.969 2.147 1.725 雙路 Genoa 96C, NPS1 662.577 644.776 640.95 644.776 1.245 1 雙路 EMR 64C 517.986 421.053 553.846 517.986 1 NA。結果可能會因系統組態、軟體版本及 BIOS 設定等因素而有不同。