次の進化
400 を超える世界記録を持つ AMD が、AMD EPYC™ プロセッサにどのような改善を加えるのかと疑問に思われるかもしれません。1 これまで開発された中で最もパワフルなサーバー プロセッサから、さらに進化を遂げるにはどうすればよいのでしょうか。1 それは、'Zen 5 ' アーキテクチャ、およびこのアーキテクチャがお客様に提供するすべてのメリットを活用することです。
第 5 世代 AMD EPYC™ プロセッサのご紹介
AI およびクリティカルなビジネス ワークロードの世界に向けて設計された第 5 世代 AMD EPYC™ プロセッサは、パフォーマンスと効率性において既に何百もの世界記録を樹立している製品群の次世代サーバー CPU です。1 その充実した過去の実績に基づく AMD EPYC™ 9005 シリーズ プロセッサは 'Zen 5' アーキテクチャにより、飛躍的なパフォーマンスを実現します。
この新しいプロセッサは最大 192 コア、384 スレッド、5 GHz の最大ブースト周波数を提供し、お客様が想像し得るほぼすべてのビジネス ニーズに対応することが期待できます。2 前世代の EPYC 製品よりも多くのコアを提供し、さらに高い周波数を実現するだけでなく、より高速な DRAM もサポートすることで、メモリに影響を受けやすいワークロード向けに、強化された機能を提供します。
第 5 世代 AMD EPYC プロセッサを採用したサーバーは、アクセス性と導入のしやすさに優れ、卓越したパフォーマンス、集積度、効率性を提供し、企業の AI 導入イニシアチブやビジネス クリティカルなアプリケーションから、大規模なクラウドベースのインフラストラクチャを強化する機能の提供まで、あらゆる展開をサポートします。
また、使い慣れた x86 ソフトウェアとの互換性を重視した統一感のあるラインナップにより、x86 ソフトウェアの大幅な変更を必要とせず、日々のビジネスをサポートする共通の ISA を使用して、必要なものを必要な場所に展開できます。
AMD EPYC 9005 プロセッサ ベースのシステムは、データセンターの統合やモダナイゼーションから、要求の厳しさが増しているエンタープライズ アプリケーション ニーズまで、さまざまなイニシアチブを支援します。これは、極めて効率性の高い 'Zen 5' アーキテクチャによって実現するものです。このアーキテクチャは、エンタープライズ領域において拡大する AI ニーズに対応するだけでなく、電力効率の改善やデータセンターの乱立抑制を目指す企業をサポートするために構築された、優れたプラットフォームです。
パフォーマンス、効率、成果のいずれにおいても何一つ犠牲にすることのない、サーバー向け CPU です。
モデル番号 |
コア |
最大スレッド数 |
L3 キャッシュ (MB) |
デフォルト TDP (W) |
DDR チャネル数/最大メモリ容量システム (2DPC) |
最大 DDR5 周波数 (MHz) (1DPC) |
PCIe® Gen 5 (レーン数) |
ソケット密度 |
9965 |
192 |
384 |
384 |
500 |
12/9TB |
6000 |
160 |
2 |
9845 |
160 |
320 |
320 |
400 |
12/9TB |
6000 |
160 |
2 |
9825 |
144 |
288 |
384 |
400 |
12/9TB |
6000 |
160 |
2 |
9755 |
128 |
256 |
512 |
500 |
12/9TB |
6000 |
160 |
2 |
9745 |
128 |
256 |
256 |
400 |
12/9TB |
6000 |
160 |
2 |
9655 |
96 |
192 |
384 |
400 |
12/9TB |
6000 |
160 |
2 |
9645 |
96 |
192 |
256 |
320 |
12/9 TB |
6000 |
160 |
2 |
9655P |
96 |
192 |
384 |
320 |
12/9TB |
6000 |
128 |
1 |
9565 |
72 |
144 |
384 |
400 |
12/9TB |
6000 |
160 |
2 |
9575F |
64 |
128 |
256 |
400 |
12/9TB |
6000 |
160 |
2 |
9555 |
64 |
128 |
256 |
360 |
12/9TB |
6000 |
160 |
2 |
9555P |
64 |
128 |
256 |
320 |
12/9TB |
6000 |
128 |
1 |
9535 |
64 |
128 |
256 |
300 |
12/9TB |
6000 |
160 |
2 |
9475F |
48 |
96 |
256 |
360 |
12/9TB |
6000 |
160 |
2 |
9455 |
48 |
96 |
256 |
300 |
12/9TB |
6000 |
160 |
2 |
9455P |
48 |
96 |
192 |
300 |
12/9TB |
6000 |
128 |
1 |
9365 |
36 |
72 |
192 |
300 |
12/9TB |
6000 |
160 |
2 |
9375F |
32 |
64 |
256 |
320 |
12/9TB |
6000 |
160 |
2 |
9355 |
32 |
64 |
256 |
280 |
12/9TB |
6000 |
160 |
2 |
9355P |
32 |
64 |
256 |
280 |
12/9TB |
6000 |
128 |
1 |
9335 |
32 |
64 |
192 |
210 |
12/9TB |
6000 |
160 |
2 |
9275F |
24 |
48 |
256 |
320 |
12/9TB |
6000 |
160 |
2 |
9255 |
24 |
48 |
128 |
200 |
12/9TB |
6000 |
160 |
2 |
9175F |
16 |
32 |
256 |
320 |
12/9TB |
6000 |
160 |
2 |
9135 |
16 |
32 |
128 |
200 |
12/9TB |
6000 |
160 |
2 |
9125 |
8 |
16 |
256 |
165 |
12/9TB |
6000 |
160 |
2 |
9015 |
8 |
16 |
64 |
155 |
12/9TB |
6000 |
160 |
2 |
パフォーマンス: お客様に明確なイメージを提供
ビジネスにおける AI の役割が重要性を増すにつれて、お客様には、既存のワークロードに加えて、AI を実現するために自社のサーバー インフラストラクチャが信頼できることを確認する必要が生じました。
AMD EPYC™ 9575F プロセッサなどの新しい AMD EPYC プロセッサは、前世代と比較して、命令サイクルあたりのクロック数 (IPC) 性能で 2 桁の向上を実現し、第 5 世代 AMD EPYC プロセッサの最新の 'Zen 5' コアでは、ML、HPC、およびエンタープライズ ワークロードで大幅な向上を実現するよう設計されています。3
競合製品と比較した場合、これらの新しいプロセッサは、さまざまなユースケースでの画期的なエンドツーエンドの AI スループット性能など、企業が驚異的な成果を達成するのに役立ちます。たとえば、TPCx-AI ベンチマークを使用した AMD のテストによると、192 コアの AMD EPYC™ 9965 プロセッサを搭載した 2P サーバーは、64 コアの Intel Xeon Platinum 8592+ を搭載した 2P サーバーと比較して、1 分あたりの対応 AI テスト ケース数が最大約 3.8 倍となります。4
GPU アクセラレータをホストする場合、2 個の AMD EPYC 9575F CPU は、Llama3.1 を実行する 2 個の Intel® Xeon® 8592+ CPU と比較して、推論要求が最大 20% 増加し、トレーニング時間が 15% 短縮します。5、6
パフォーマンスが優れている一方で、効率が低下しては意味がありません。AMD EPYC 9005 シリーズ プロセッサは、電力効率の高いサーバー ソリューションを提供します。実際に、AMD EPYC 9965 CPU を使用した 2P サーバーは、Intel® Xeon® 8592+ CPU を使用したサーバーと比較して、CPU ワットあたりの概算整数演算性能が 1.8 倍となります。7
仕事の進め方を一変させる、新世代の最先端 AMD EPYC プロセッサがここに誕生しました。AI の時代となった今、出遅れるわけにはいきません。詳細は、AMD 担当者までお問い合わせいただくか、AMD.com にアクセスしてください。
その他のリソース
AMD アリーナ
AMD Ryzen™ PRO、AMD EPYC™、AMD Instinct™ などに関するトレーニングで、AMD 製品の知識を深めることができます。
登録
AMD の最新製品、トレーニング リソース、"エキスパートに訊く" ウェビナーに関する情報を毎月お届けします。

関連記事
脚注
AMD EPYC プロセッサが保持している、パフォーマンスに関する世界記録の全リストについては、AMD.com/worldrecords をご覧ください。
AMD EPYC プロセッサの最大ブーストは、サーバー システムの通常の動作条件下においてプロセッサの任意のシングル コアによって達成可能な最大周波数です。EPYC-018
9xx5-001: 2024 年 9 月 10 日時点の AMD 社内テストに基づく、固定周波数での幾何平均パフォーマンスの向上 (IPC)。
- 第 5 世代 EPYC CPU のエンタープライズおよびクラウド サーバー ワークロードは、36 のワークロードから選択されたセットを使用し、SPECrate®2017_int_base (幾何平均) の合計および全サブセットの推定スコア、SPECrate®2017_fp_base (幾何平均) の合計および全サブセットの推定スコア、サーバーサイド Java マルチインスタンスの最大 ops/秒のスコア、代表的なクラウド サーバー ワークロード (幾何平均)、および代表的なエンタープライズ サーバー ワークロード (幾何平均) の幾何平均値で、IPC 性能が世代間で 1.170 倍 (幾何平均) 向上していることが示されました。
"Genoa" 構成 (すべて NPS1): EPYC 9654 BIOS TQZ1005D 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-4800 (2Rx4 64 GB)、32 Gbps xGMI。
"Turin" 構成 (すべて NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-6000 (2Rx4 64 GB)、32 Gbps xGMI
Ubuntu® 22.04 w/6.8.0-40-generic カーネル OS 上で、全ワークロードに対してパフォーマンス決定論と Performance Governor を活用。
- 第 5 世代 EPYC 世代別 ML/HPC サーバー ワークロードは、24 のワークロードから選択されたセットを使用し、代表的な ML サーバーワー クロード (幾何平均) および代表的な HPC サーバー ワークロード (幾何平均) の幾何平均値で、IPC 性能が 1.369 倍 (幾何平均) 向上していることが示されました。
"Genoa 構成" (すべて NPS1) "Genoa" 構成: EPYC 9654 BIOS TQZ1005D 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-4800 (2Rx4 64 GB)、32 Gbps xGMI。
"Turin" 構成 (すべて NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-6000 (2Rx4 64 GB)、32 Gbps xGMI
Ubuntu 22.04 w/6.8.0-40-generic カーネル OS 上で、全ワークロードに対してパフォーマンス決定論と Performance Governor を活用 (24.04 w/6.8.0-40-generic カーネルを使用する LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs を除く)。
SPEC® および SPECrate® は、Standard Performance Evaluation Corporation の登録商標です。詳細については、spec.org をご覧ください。
- 9xx5-012: TPCxAI @SF30 マルチインスタンス 32 コア インスタンス サイズのスループット結果は、複数の VM インスタンスを実行した場合の 2024 年 9 月 5 日時点の AMD 社内テストに基づくものです。エンドツーエンドの集約 AI スループット試験は、TPCx-AI ベンチマークから派生したものであるため、公開されている TPCx-AI の結果とは比較できません。エンドツーエンドの AI スループット試験の結果は TPCx-AI 仕様を順守していないためです。
2P AMD EPYC 9965 (合計 384 コア)、12 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-6400 (6000 MT/s 時)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.4 LTS、6.8.0-40-generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT1000C (SMT=off、Determinism=Power、Turbo Boost=Enabled)
2P AMD EPYC 9755 (合計 256 コア)、8 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-6400 (6000 MT/s 時)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu 22.04.4 LTS、6.8.0-40-generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT0090F (SMT=off、Determinism=Power、Turbo Boost=Enabled)
2P AMD EPYC 9654 (合計 192 コア) 6 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-4800、1DPC、2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe、Ubuntu 22.04.3 LTS、BIOS 1006C (SMT=off、Determinism=Power)
比較対象: 2P Xeon Platinum 8592+ (合計 128 コア)、4 32 コア インスタンス、AMX On、1 TB 16x64 GB DDR5-5600、1DPC、1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe、3.84 TB KIOXIA KCMYXRUG3T84 NVMe、Ubuntu 22.04.4 LTS、6.5.0-35 generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 132065548、ulimit -n 1024、ulimit -s 8192)、BIOS ESE122V (SMT=off、Determinism=Power、Turbo Boost = Enabled)
導入効果:
CPU 相対中央値 (世代間)
Turin 192 コア、12 Inst 6067.531 3.775 2.278
Turin 128 コア、8 Inst 4091.85 2.546 1.536
Genoa 96 コア、6 Inst 2663.14 1.657 1
EMR 64 コア、4 Inst 1607.417 1 NA
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。TPC、TPC Benchmark、および TPC-C は、Transaction Processing Performance Council の商標です。
- 9xx5-014: Llama3.1-70B の推論スループットは、2024 年 9 月 1 日時点の AMD 社内テストに基づきます。
Llama3.1-70B の構成: TensorRT-LLM 0.9.0、nvidia/cuda 12.5.0-devel-ubuntu22.04、FP8、入力/出力トークン設定 (ユースケース): [BS=1024 I/O=128/128、BS=1024 I/O=128/2048、BS=96 I/O=2048/128、BS=64 I/O=2048/2048]。トークン数/秒の測定結果です。
2P AMD EPYC 9575F (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、
2P Intel Xeon Platinum 8592+ (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、
I/O トークン バッチ サイズ EMR Turin 相対値
128/128 1024 814.678 1101.966 1.353
128/2048 1024 2120.664 2331.776 1.1
2048/128 96 114.954 146.187 1.272
2048/2048 64 333.325 354.208 1.063
平均スループットが 1.197 倍に増加します。
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。
- 9xx5-015: Llama3.1-8B (BF16、最大シーケンス長 1024) のトレーニングとテストの実行結果は、2024 年 9 月 5 日時点での AMD 社内テストに基づきます。
Llama3.1-8B の構成: 最大シーケンス長 1024、BF16、Docker: huggingface/transformers-pytorch-gpu:latest
2P AMD EPYC 9575F (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、
毎秒 31.79 のトレーニング サンプル用
2P Intel Xeon Platinum 8592+ (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、
毎秒 27.74 のトレーニング サンプル用
平均スループットが 1.146 倍に増加します。
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。
- 9xx5-002a: SPECrate®2017_int_base の比較は、AMD リファレンス プラットフォーム内部推定測定値および 2024 年 9 月 5 日時点で www.spec.org に掲載されているスコアに基づいています。
2P AMD EPYC 9965 (SPECrate®2017_int_base 推定値 2870、合計 384 コア、500W TDP) 1.5 TB 24x64 GB 2Rx4 PC5-6400B-R を 6000 MT/s、3.84 TB NVMe、Ubuntu® 24.04 LTS Kernel 6.8.30-41-generic、AOCC v5.0.0 で実行し、同構成の SPECrate®2017_int_base/CPU 消費電力推定値 5.740 の場合と比較
2P Intel Xeon Platinum 8592+ (1130 SPECrate®2017_int_base、合計 128 コア、350W TDP) 3.229 SPECrate®2017_int_base/CPU 消費電力 (http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)
EPYC 9965 vs 8592+
- 推定 2.540 倍のパフォーマンス
- 推定 1.778 倍のパフォーマンス/CPU 消費電力
公開されている 2P AMD EPYC 9754 (1950 SPECrate®2017_int_base、合計 256 コア、360W TDP) 5.417 SPECrate®2017_int_base/CPU 消費電力 (http://spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)
EPYC 9754 vs 8592+
- 1.725 倍のパフォーマンス
- 1.678 倍のパフォーマンス/CPU 消費電力
世代間 (EPYC 9965 と EPYC 9754 を比較)
- 1.472 倍のパフォーマンス
- 1.060 倍のパフォーマンス/CPU 消費電力
SPEC®、SPEC CPU®、および SPECrate® は、Standard Performance Evaluation Corporation の登録商標です。詳細については、www.spec.org をご覧ください。Intel CPU TDP については、https://ark.intel.com/content/www/jp/ja/ark.html をご覧ください。
AMD EPYC プロセッサが保持している、パフォーマンスに関する世界記録の全リストについては、AMD.com/worldrecords をご覧ください。
AMD EPYC プロセッサの最大ブーストは、サーバー システムの通常の動作条件下においてプロセッサの任意のシングル コアによって達成可能な最大周波数です。EPYC-018
9xx5-001: 2024 年 9 月 10 日時点の AMD 社内テストに基づく、固定周波数での幾何平均パフォーマンスの向上 (IPC)。
- 9xx5-012: TPCxAI @SF30 マルチインスタンス 32 コア インスタンス サイズのスループット結果は、複数の VM インスタンスを実行した場合の 2024 年 9 月 5 日時点の AMD 社内テストに基づくものです。エンドツーエンドの集約 AI スループット試験は、TPCx-AI ベンチマークから派生したものであるため、公開されている TPCx-AI の結果とは比較できません。エンドツーエンドの AI スループット試験の結果は TPCx-AI 仕様を順守していないためです。
- 9xx5-014: Llama3.1-70B の推論スループットは、2024 年 9 月 1 日時点の AMD 社内テストに基づきます。
- 9xx5-015: Llama3.1-8B (BF16、最大シーケンス長 1024) のトレーニングとテストの実行結果は、2024 年 9 月 5 日時点での AMD 社内テストに基づきます。
- 9xx5-002a: SPECrate®2017_int_base の比較は、AMD リファレンス プラットフォーム内部推定測定値および 2024 年 9 月 5 日時点で www.spec.org に掲載されているスコアに基づいています。
- 第 5 世代 EPYC CPU のエンタープライズおよびクラウド サーバー ワークロードは、36 のワークロードから選択されたセットを使用し、SPECrate®2017_int_base (幾何平均) の合計および全サブセットの推定スコア、SPECrate®2017_fp_base (幾何平均) の合計および全サブセットの推定スコア、サーバーサイド Java マルチインスタンスの最大 ops/秒のスコア、代表的なクラウド サーバー ワークロード (幾何平均)、および代表的なエンタープライズ サーバー ワークロード (幾何平均) の幾何平均値で、IPC 性能が世代間で 1.170 倍 (幾何平均) 向上していることが示されました。
"Genoa" 構成 (すべて NPS1): EPYC 9654 BIOS TQZ1005D 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-4800 (2Rx4 64 GB)、32 Gbps xGMI。
"Turin" 構成 (すべて NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-6000 (2Rx4 64 GB)、32 Gbps xGMI
Ubuntu® 22.04 w/6.8.0-40-generic カーネル OS 上で、全ワークロードに対してパフォーマンス決定論と Performance Governor を活用。
- 第 5 世代 EPYC 世代別 ML/HPC サーバー ワークロードは、24 のワークロードから選択されたセットを使用し、代表的な ML サーバーワー クロード (幾何平均) および代表的な HPC サーバー ワークロード (幾何平均) の幾何平均値で、IPC 性能が 1.369 倍 (幾何平均) 向上していることが示されました。
"Genoa 構成" (すべて NPS1) "Genoa" 構成: EPYC 9654 BIOS TQZ1005D 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-4800 (2Rx4 64 GB)、32 Gbps xGMI。
"Turin" 構成 (すべて NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t (12+1 で 1c1t/CCD)、FF 3 GHz、12x DDR5-6000 (2Rx4 64 GB)、32 Gbps xGMI
Ubuntu 22.04 w/6.8.0-40-generic カーネル OS 上で、全ワークロードに対してパフォーマンス決定論と Performance Governor を活用 (24.04 w/6.8.0-40-generic カーネルを使用する LAMMPS、HPCG、NAMD、OpenFOAM、Gromacs を除く)。
SPEC® および SPECrate® は、Standard Performance Evaluation Corporation の登録商標です。詳細については、spec.org をご覧ください。
2P AMD EPYC 9965 (合計 384 コア)、12 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-6400 (6000 MT/s 時)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.4 LTS、6.8.0-40-generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT1000C (SMT=off、Determinism=Power、Turbo Boost=Enabled)
2P AMD EPYC 9755 (合計 256 コア)、8 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-6400 (6000 MT/s 時)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu 22.04.4 LTS、6.8.0-40-generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT0090F (SMT=off、Determinism=Power、Turbo Boost=Enabled)
2P AMD EPYC 9654 (合計 192 コア) 6 32 コア インスタンス、NPS1、1.5 TB 24x64 GB DDR5-4800、1DPC、2 x 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe、Ubuntu 22.04.3 LTS、BIOS 1006C (SMT=off、Determinism=Power)
比較対象: 2P Xeon Platinum 8592+ (合計 128 コア)、4 32 コア インスタンス、AMX On、1 TB 16x64 GB DDR5-5600、1DPC、1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe、3.84 TB KIOXIA KCMYXRUG3T84 NVMe、Ubuntu 22.04.4 LTS、6.5.0-35 generic (tuned-adm プロファイル スループットパフォーマンス、ulimit -l 132065548、ulimit -n 1024、ulimit -s 8192)、BIOS ESE122V (SMT=off、Determinism=Power、Turbo Boost = Enabled)
導入効果:
CPU 相対中央値 (世代間)
Turin 192 コア、12 Inst 6067.531 3.775 2.278
Turin 128 コア、8 Inst 4091.85 2.546 1.536
Genoa 96 コア、6 Inst 2663.14 1.657 1
EMR 64 コア、4 Inst 1607.417 1 NA
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。TPC、TPC Benchmark、および TPC-C は、Transaction Processing Performance Council の商標です。
Llama3.1-70B の構成: TensorRT-LLM 0.9.0、nvidia/cuda 12.5.0-devel-ubuntu22.04、FP8、入力/出力トークン設定 (ユースケース): [BS=1024 I/O=128/128、BS=1024 I/O=128/2048、BS=96 I/O=2048/128、BS=64 I/O=2048/2048]。トークン数/秒の測定結果です。
2P AMD EPYC 9575F (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、
2P Intel Xeon Platinum 8592+ (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、
I/O トークン バッチ サイズ EMR Turin 相対値
128/128 1024 814.678 1101.966 1.353
128/2048 1024 2120.664 2331.776 1.1
2048/128 96 114.954 146.187 1.272
2048/2048 64 333.325 354.208 1.063
平均スループットが 1.197 倍に増加します。
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。
Llama3.1-8B の構成: 最大シーケンス長 1024、BF16、Docker: huggingface/transformers-pytorch-gpu:latest
2P AMD EPYC 9575F (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1.5 TB 24x64 GB DDR5-6000、1.0 Gbps 3 TB Micron_9300_MTFDHAL3T8TDP NVMe®、BIOS T20240805173113 (Determinism=Power、SR-IOV=On)、Ubuntu 22.04.3 LTS、kernel=5.15.0-117-generic (mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches)、
毎秒 31.79 のトレーニング サンプル用
2P Intel Xeon Platinum 8592+ (合計 128 コア)、8x NVIDIA H100 80 GB HBM3、1 TB 16x64 GB DDR5-5600、3.2 TB Dell Ent NVMe® PM1735a MU、Ubuntu 22.04.3 LTS、kernel-5.15.0-118-generic、(processor.max_cstate=1、intel_idle.max_cstate=0 mitigations=off、cpupower frequency-set -g performance)、BIOS 2.1、(Maximum performance、SR-IOV=On)、
毎秒 27.74 のトレーニング サンプル用
平均スループットが 1.146 倍に増加します。
実際の結果は、システムの構成、ソフトウェアのバージョン、BIOS の設定などの要因によって異なります。
2P AMD EPYC 9965 (SPECrate®2017_int_base 推定値 2870、合計 384 コア、500W TDP) 1.5 TB 24x64 GB 2Rx4 PC5-6400B-R を 6000 MT/s、3.84 TB NVMe、Ubuntu® 24.04 LTS Kernel 6.8.30-41-generic、AOCC v5.0.0 で実行し、同構成の SPECrate®2017_int_base/CPU 消費電力推定値 5.740 の場合と比較
2P Intel Xeon Platinum 8592+ (1130 SPECrate®2017_int_base、合計 128 コア、350W TDP) 3.229 SPECrate®2017_int_base/CPU 消費電力 (http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)
EPYC 9965 vs 8592+
- 推定 2.540 倍のパフォーマンス
- 推定 1.778 倍のパフォーマンス/CPU 消費電力
公開されている 2P AMD EPYC 9754 (1950 SPECrate®2017_int_base、合計 256 コア、360W TDP) 5.417 SPECrate®2017_int_base/CPU 消費電力 (http://spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)
EPYC 9754 vs 8592+
- 1.725 倍のパフォーマンス
- 1.678 倍のパフォーマンス/CPU 消費電力
世代間 (EPYC 9965 と EPYC 9754 を比較)
- 1.472 倍のパフォーマンス
- 1.060 倍のパフォーマンス/CPU 消費電力
SPEC®、SPEC CPU®、および SPECrate® は、Standard Performance Evaluation Corporation の登録商標です。詳細については、www.spec.org をご覧ください。Intel CPU TDP については、https://ark.intel.com/content/www/jp/ja/ark.html をご覧ください。