次の進化

400 を超える世界記録を持つ AMD が、AMD EPYC™ プロセッサにどのような改善を加えるのかと疑問に思われるかもしれません。1 これまで開発された中で最もパワフルなサーバー プロセッサから、さらに進化を遂げるにはどうすればよいのでしょうか。1 それは、'Zen 5 ' アーキテクチャ、およびこのアーキテクチャがお客様に提供するすべてのメリットを活用することです。

第 5 世代 AMD EPYC™ プロセッサのご紹介

AI およびクリティカルなビジネス ワークロードの世界に向けて設計された第 5 世代 AMD EPYC™ プロセッサは、パフォーマンスと効率性において既に何百もの世界記録を樹立している製品群の次世代サーバー CPU です。1 その充実した過去の実績に基づく AMD EPYC™ 9005 シリーズ プロセッサは 'Zen 5' アーキテクチャにより、飛躍的なパフォーマンスを実現します。

この新しいプロセッサは最大 192 コア、384 スレッド、5 GHz の最大ブースト周波数を提供し、お客様が想像し得るほぼすべてのビジネス ニーズに対応することが期待できます。2 前世代の EPYC 製品よりも多くのコアを提供し、さらに高い周波数を実現するだけでなく、より高速な DRAM もサポートすることで、メモリに影響を受けやすいワークロード向けに、強化された機能を提供します。

第 5 世代 AMD EPYC プロセッサを採用したサーバーは、アクセス性と導入のしやすさに優れ、卓越したパフォーマンス、集積度、効率性を提供し、企業の AI 導入イニシアチブやビジネス クリティカルなアプリケーションから、大規模なクラウドベースのインフラストラクチャを強化する機能の提供まで、あらゆる展開をサポートします。

また、使い慣れた x86 ソフトウェアとの互換性を重視した統一感のあるラインナップにより、x86 ソフトウェアの大幅な変更を必要とせず、日々のビジネスをサポートする共通の ISA を使用して、必要なものを必要な場所に展開できます。

AMD EPYC 9005 プロセッサ ベースのシステムは、データセンターの統合やモダナイゼーションから、要求の厳しさが増しているエンタープライズ アプリケーション ニーズまで、さまざまなイニシアチブを支援します。これは、極めて効率性の高い 'Zen 5' アーキテクチャによって実現するものです。このアーキテクチャは、エンタープライズ領域において拡大する AI ニーズに対応するだけでなく、電力効率の改善やデータセンターの乱立抑制を目指す企業をサポートするために構築された、優れたプラットフォームです。

パフォーマンス、効率、成果のいずれにおいても何一つ犠牲にすることのない、サーバー向け CPU です。 

モデル番号

コア

最大スレッド数

L3 キャッシュ (MB)

デフォルト TDP (W)

DDR チャネル数/最大メモリ容量システム (2DPC)

最大 DDR5 周波数 (MHz) (1DPC)

PCIe® Gen 5 (レーン数)

ソケット密度

9965

192

384

384

500

12/9TB

6000

160

2

9845

160

320

320

400

12/9TB

6000

160

2

9825

144

288

384

400

12/9TB

6000

160

2

9755

128

256

512

500

12/9TB

6000

160

2

9745

128

256

256

400

12/9TB

6000

160

2

9655

96

192

384

400

12/9TB

6000

160

2

9645

96

192

256

320

12/9 TB

6000

160

2

9655P

96

192

384

320

12/9TB

6000

128

1

9565

72

144

384

400

12/9TB

6000

160

2

9575F

64

128

256

400

12/9TB

6000

160

2

9555

64

128

256

360

12/9TB

6000

160

2

9555P

64

128

256

320

12/9TB

6000

128

1

9535

64

128

256

300

12/9TB

6000

160

2

9475F

48

96

256

360

12/9TB

6000

160

2

9455

48

96

256

300

12/9TB

6000

160

2

9455P

48

96

192

300

12/9TB

6000

128

1

9365

36

72

192

300

12/9TB

6000

160

2

9375F

32

64

256

320

12/9TB

6000

160

2

9355

32

64

256

280

12/9TB

6000

160

2

9355P

32

64

256

280

12/9TB

6000

128

1

9335

32

64

192

210

12/9TB

6000

160

2

9275F

24

48

256

320

12/9TB

6000

160

2

9255

24

48

128

200

12/9TB

6000

160

2

9175F

16

32

256

320

12/9TB

6000

160

2

9135

16

32

128

200

12/9TB

6000

160

2

9125

8

16

256

165

12/9TB

6000

160

2

9015

8

16

64

155

12/9TB

6000

160

2

 

パフォーマンス: お客様に明確なイメージを提供

ビジネスにおける AI の役割が重要性を増すにつれて、お客様には、既存のワークロードに加えて、AI を実現するために自社のサーバー インフラストラクチャが信頼できることを確認する必要が生じました。

AMD EPYC™ 9575F プロセッサなどの新しい AMD EPYC プロセッサは、前世代と比較して、命令サイクルあたりのクロック数 (IPC) 性能で 2 桁の向上を実現し、第 5 世代 AMD EPYC プロセッサの最新の 'Zen 5' コアでは、ML、HPC、およびエンタープライズ ワークロードで大幅な向上を実現するよう設計されています。3

競合製品と比較した場合、これらの新しいプロセッサは、さまざまなユースケースでの画期的なエンドツーエンドの AI スループット性能など、企業が驚異的な成果を達成するのに役立ちます。たとえば、TPCx-AI ベンチマークを使用した AMD のテストによると、192 コアの AMD EPYC™ 9965 プロセッサを搭載した 2P サーバーは、64 コアの Intel Xeon Platinum 8592+ を搭載した 2P サーバーと比較して、1 分あたりの対応 AI テスト ケース数が最大約 3.8 倍となります。4

GPU アクセラレータをホストする場合、2 個の AMD EPYC 9575F CPU は、Llama3.1 を実行する 2 個の Intel® Xeon® 8592+ CPU と比較して、推論要求が最大 20% 増加し、トレーニング時間が 15% 短縮します。5、6

パフォーマンスが優れている一方で、効率が低下しては意味がありません。AMD EPYC 9005 シリーズ プロセッサは、電力効率の高いサーバー ソリューションを提供します。実際に、AMD EPYC 9965 CPU を使用した 2P サーバーは、Intel® Xeon® 8592+ CPU を使用したサーバーと比較して、CPU ワットあたりの概算整数演算性能が 1.8 倍となります。7

仕事の進め方を一変させる、新世代の最先端 AMD EPYC プロセッサがここに誕生しました。AI の時代となった今、出遅れるわけにはいきません。詳細は、AMD 担当者までお問い合わせいただくか、AMD.com にアクセスしてください。

その他のリソース

AMD アリーナ


AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ などに関するトレーニングで、AMD 製品の知識を深めることができます。

脚注
  1. AMD EPYC プロセッサが保持している、パフォーマンスに関する世界記録の全リストについては、AMD.com/worldrecords をご覧ください。

  2. AMD EPYC プロセッサの最大ブーストは、サーバー システムの通常の動作条件下においてプロセッサの任意のシングル コアによって達成可能な最大周波数です。EPYC-018

  3. 9xx5-001: 2024 年 9 月 10 日時点の AMD 社内テストに基づく、固定周波数での幾何平均パフォーマンスの向上 (IPC)。

  4. - 第 5 世代 EPYC CPU のエンタープライズおよびクラウド サーバー ワークロードは、36 のワークロードから選択されたセットを使用し、SPECrate®2017_int_base (幾何平均) の合計および全サブセットの推定スコア、SPECrate®2017_fp_base (幾何平均) の合計および全サブセットの推定スコア、サーバーサイド Java マルチインスタンスの最大 ops/秒のスコア、代表的なクラウド サーバー ワークロード (幾何平均)、および代表的なエンタープライズ サーバー ワークロード (幾何平均) の幾何平均値で、IPC 性能が世代間で 1.170 倍 (幾何平均) 向上していることが示されました。 

    "Genoa" 構成 (すべて NPS1): EPYC 9654 BIOS TQZ1005D 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-4800 (2Rx4 64 GB)、32 Gbps xGMI。

    "Turin" 構成 (すべて NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-6000 (2Rx4 64 GB)、32 Gbps xGMI 

    Ubuntu® 22.04 w/6.8.0-40-generic カーネル OS 上で、全ワークロードに対してパフォーマンス決定論と Performance Governor を活用。

    - 第 5 世代 EPYC 世代別 ML/HPC サーバー ワークロードは、24 のワークロードから選択されたセットを使用し、代表的な ML サーバーワー クロード (幾何平均) および代表的な HPC サーバー ワークロード (幾何平均) の幾何平均値で、IPC 性能が 1.369 倍 (幾何平均) 向上していることが示されました。

    "Genoa 構成" (すべて NPS1) "Genoa" 構成: EPYC 9654 BIOS TQZ1005D 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-4800 (2Rx4 64 GB)、32 Gbps xGMI。

    "Turin" 構成 (すべて NPS1):   EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-6000 (2Rx4 64 GB)、32 Gbps xGMI 

    Ubuntu 22.04 w/6.8.0-40-generic カーネル OS 上で、全ワークロードに対してパフォーマンス決定論と Performance Governor を活用 (24.04 w/6.8.0-40-generic カーネルを使用する LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs を除く)。

    SPEC® および SPECrate® は、Standard Performance Evaluation Corporation の登録商標です。詳細については、spec.org をご覧ください。

  5. 9xx5-012: TPCxAI @SF30 マルチインスタンス 32 コア インスタンス サイズのスループット結果は、複数の VM インスタンスを実行した場合の 2024 年 9 月 5 日時点の AMD 社内テストに基づくものです。エンドツーエンドの集約 AI スループット試験は、TPCx-AI ベンチマークから派生したものであるため、公開されている TPCx-AI の結果とは比較できません。エンドツーエンドの AI スループット試験の結果は TPCx-AI 仕様を順守していないためです。
  6. 2P AMD EPYC 9965 (合計 384 コア)、12 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-6400 (6000 MT/s 時)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.4 LTS、6.8.0-40-generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT1000C (SMT=off、Determinism=Power、Turbo Boost=Enabled)

    2P AMD EPYC 9755 (合計 256 コア)、8 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-6400 (6000 MT/s 時)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu 22.04.4 LTS、6.8.0-40-generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT0090F (SMT=off、Determinism=Power、Turbo Boost=Enabled)

    2P AMD EPYC 9654 (合計 192 コア) 6 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-4800、1DPC、2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe、Ubuntu 22.04.3 LTS、BIOS 1006C (SMT=off、Determinism=Power)

    比較対象: 2P Xeon Platinum 8592+ (合計 128 コア)、4 32 コア インスタンス、AMX On、1 TB 16x64 GB DDR5-5600、1DPC、1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe、3.84 TB KIOXIA KCMYXRUG3T84 NVMe、Ubuntu 22.04.4 LTS、6.5.0-35 generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 132065548、ulimit -n 1024、ulimit -s 8192)、BIOS ESE122V (SMT=off、Determinism=Power、Turbo Boost = Enabled)

    導入効果:

    CPU 相対中央値 (世代間)

    Turin 192 コア、12 Inst 6067.531 3.775 2.278

    Turin 128 コア、8 Inst 4091.85 2.546 1.536

    Genoa 96 コア、6 Inst 2663.14 1.657 1

    EMR 64 コア、4 Inst 1607.417 1 NA

    実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。TPC、TPC Benchmark、および TPC-C は、Transaction Processing Performance Council の商標です。

  7. 9xx5-014: Llama3.1-70B の推論スループットは、2024 年 9 月 1 日時点の AMD 社内テストに基づきます。
  8. Llama3.1-70B の構成: TensorRT-LLM 0.9.0、nvidia/cuda 12.5.0-devel-ubuntu22.04、FP8、入力/出力トークン設定 (ユースケース): [BS=1024 I/O=128/128、BS=1024 I/O=128/2048、BS=96 I/O=2048/128、BS=64 I/O=2048/2048]。トークン数/秒の測定結果です。

    2P AMD EPYC 9575F (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、

    2P Intel Xeon Platinum 8592+ (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、

    I/O トークン バッチ サイズ EMR Turin 相対値

    128/128 1024 814.678 1101.966 1.353

    128/2048 1024 2120.664 2331.776 1.1

    2048/128 96 114.954 146.187 1.272

    2048/2048 64 333.325 354.208 1.063

    平均スループットが 1.197 倍に増加します。

    実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。

  9. 9xx5-015: Llama3.1-8B (BF16、最大シーケンス長 1024) のトレーニングとテストの実行結果は、2024 年 9 月 5 日時点での AMD 社内テストに基づきます。
  10. Llama3.1-8B の構成: 最大シーケンス長 1024、BF16、Docker: huggingface/transformers-pytorch-gpu:latest

    2P AMD EPYC 9575F (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、

    毎秒 31.79 のトレーニング サンプル用

    2P Intel Xeon Platinum 8592+ (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、

    毎秒 27.74 のトレーニング サンプル用

    平均スループットが 1.146 倍に増加します。 

    実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。

  11. 9xx5-002a: SPECrate®2017_int_base の比較は、AMD リファレンス プラットフォーム内部推定測定値および 2024 年 9 月 5 日時点で www.spec.org に掲載されているスコアに基づいています。

2P AMD EPYC 9965 (SPECrate®2017_int_base 推定値 2870、合計 384 コア、500W TDP) 1.5 TB 24x64 GB 2Rx4 PC5-6400B-R を 6000 MT/s、3.84 TB NVMe、Ubuntu® 24.04 LTS Kernel 6.8.30-41-generic、AOCC v5.0.0 で実行し、同構成の SPECrate®2017_int_base/CPU 消費電力推定値 5.740 の場合と比較

2P Intel Xeon Platinum 8592+ (1130 SPECrate®2017_int_base、合計 128 コア、350W TDP) 3.229 SPECrate®2017_int_base/CPU 消費電力 (http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)

EPYC 9965 vs 8592+

- 推定 2.540 倍のパフォーマンス

- 推定 1.778 倍のパフォーマンス/CPU 消費電力

公開されている 2P AMD EPYC 9754 (1950 SPECrate®2017_int_base、合計 256 コア、360W TDP) 5.417 SPECrate®2017_int_base/CPU 消費電力 (http://spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)

EPYC 9754 vs 8592+

- 1.725 倍のパフォーマンス

- 1.678 倍のパフォーマンス/CPU 消費電力

世代間 (EPYC 9965 と EPYC 9754 を比較)

- 1.472 倍のパフォーマンス

- 1.060 倍のパフォーマンス/CPU 消費電力

SPEC®、SPEC CPU®、および SPECrate® は、Standard Performance Evaluation Corporation の登録商標です。詳細については、www.spec.org をご覧ください。Intel CPU TDP については、https://ark.intel.com/content/www/jp/ja/ark.html をご覧ください。